Publicat per: joseprivera el: febrer 10, 2010
Fa un parell de setmanes vaig tenir l’oportunitat de manternir una llarga i agradable conversa amb un dels editors de la prestigiosa editorial MIT Press. Com sabeu, aquesta empresa publica tots els llibres de text del Massachusets Institute of Technology i entre els seus autors hi ha personatjes tan famosos com Noam Chomsky.
Doncs bé, ells ja tenen una certa experiència en publicació digital. Tenen canal de distribució propi i tambè treballen amb canals com ara Amazon. De fet han provat totes les aproximacions possibles. Els resultats son un xic decebedors. Malgrat els esforços, tan sols un 1% dels beneficis venen actualment d’Internet. Encara pitjor: molt sobint s’hi troben que la versió electrònica pot canivalitzar les vendes dels llibres en paper que son els que els hi donen marges de beneficis important. És per això que molt sobint decideixen no publicar determinats volums en digital.
Respecte als dispositius, el nostre amic es mostrava decebut amb els llibres de tinta electrònica. Esmentava un experiment dut a terme amb 6 estudiants als que s’havia facilitat un Kindle DX de franc abans de començar el curs. Tot i disposar dels seus materials en electrònic, tots ells van preferir comprar la versió impresa. En tot cas, la seva opinió respecte als lector per a iPhones i ordinadors era força més bona.
En tot això vaig pensar al llegir una entrada del fantàstic blog Beat.cat titulada “Tenen les editorials una estratègia per matar el llibre electrònic?“. No crec que sigui així, però entenc el neguit dels editors: els marges cauen. Molts no podran suportar les actuals estructures de costos però alhora és una oportunitat per a nous models de negoci. Temps de canvis.
Publicat per: jmore66 el: gener 5, 2010
El projecte Doraemon té com a objectiu ajudar al consultor d’una assignatura a respondre les consultes dels alumnes. El propòsit és presentar al consultor, de manera automàtica, suggerències de resposta. Actualment es treballa en el supòsit de que el consultor rebi una consulta que ja va ser formulada en el fòrum de la seva aula en un semestre anterior. De tota manera, està previst que també suggereixi respostes trobades en materials didàctics o en fonts externes com la Viquipèdia. Llegeix la resta d’aquesta entrada »
Publicat per: alejobs el: desembre 3, 2009
Després de quasi 10 anys sense retocar-ho, calia fer un esforç i començar un projecte d’un nou format web adaptat a les necessitats actuals dels estudiants i professors de la UOC.
Així doncs, el primer que vam fer és un recull de requeriments i anàlisi de l’estat actual. Per això es va fer una primera trobada al Juliol, on un conjunt de professors, editors i personal de la casa van debatre sobre el format web.
El següent pas va ser parlar amb els caps dels diferents estudis que ofereix la UOC i demanar que ens adrecessin a dos dels seus professors per poder entrevistar-nos i recollir idees, opinions, suggerències i casos d’ús sobre el format web. Ens vam reunir amb 10 persones en total i vam redactar un informe resumint les principals idees que vam extreure.
Els punts o idees clau que hem vist sobre el nou format web són:
Com podeu veure la tasca que ens queda és gran, doncs materialitzar tot això no és cosa de dos dies. Ja us anirem informant de com evoluciona aquest emocionant projecte!
Publicat per: joseprivera el: novembre 27, 2009
La setmana passada vaig tenir la fortuna de ser convidat a participar en una de les taules rodones de la primera “Feria del Libro Digital” que es va dur a terme a Madrid dins de la cada vegada més popular “Feria de los Contenidos Digitales” (FIDOC). La taula rodona portava per nom “Las redes sociales de libros y las nuevas formas de comunicar”. L’Antonio Fernández ha fet un bon resum al seu bloc.
Vaig assistir amb ganes de compartir amb els assistents la nostra experiència en la publicació de llibres en formats digitals i sobretot en dispositius de tinta electrònica. Tanmateix, no soc un expert en xarxes socials, així que vaig parar bé l’orella per apendre del que deien uns i uns altres. La veritat és que l’experiència va ser molt possitiva. Els altres ponents van resultar ser uns companys de taula excel·lents i vaig apendre molt d’ells.
De la xerrada, destacaria un parell de temes. Per una banda, l’enfoc de les promocions en xarxes socials. No val que l’editorial faci d’intermediari. És l’autor qui s’ha de presentar i gestionar la seva xarxa de relacions. L’autor passa a vendre la seva vida per a vendre la seva obra. I això és un canvi.
El segon tema que volia destacar és el dels models de negoci relacionats amb el llibre. Tot i que possiblement la gent estigui més disposada a pagar per un llibre que per una cançó, resta per veure què passarà amb la venda de llibres per internet. El Kindle d’Amazon ha funcionat bé, però l’èxit no ha sigut tant del dispositiu com del servei de la botiga americana. Amazon ha construït una comunitat de cincuanta milions d’usuaris que estan encantats amb el servei de compra per correu tot i haver d’esperar un parell de setmanes per rebre els productes que han comprat. Si ja estaven contents abans, com no han d’estar-ho amb un Kindle, el millor dispositiu que hi ha al mercat i que els hi permet comprar el que volen de forma inmediata! A principis del s.XXI, la clau és tenir al client ja no content sinó emocionat.
Publicat per: alejobs el: agost 4, 2009
Un cop millorat el rendiment “global” del nostre generador, volíem fer més ràpid el procés de generació dels videollibres, doncs és el format que menys hem generat fins ara i el que triga més.
Per això vam fer unes estadístiques detallades de quant es trigava en generar un videollibre. I vam veure que el “coll d’ampolla” estava, principalment, al procés de conversió de Flash a Video (MPEG-4). Podia arribar a ser entre un 75 i un 83% del temps total de generació. Aquest procés s’executa a través d’un programa anomenat Moyea. El cridem des del nostre projecte Java, indicant-li el path de l’arxiu Flash (.swf) i els paràmetres del vídeo MPEG-4 de sortida.
Un dels incovenients del conversor de flash a vídeo (i encara no hem trobat cap que ho sàpiga fer) és que no sap quant dura aquest, ja que tota l’animació està basada en actionscript. Per a ell és com un flash d’1 sol frame, i si no li indiquem res, recorre aquest frame i deixa de capturar. Per a evitar això, Moyea té la opció d’indicar-li els segons que vols que estigui capturant el Flash.
És per això que cada conversió d’un flash dura com a mínim el temps de reproducció del mateix. Això ens causa un coll d’ampolla molt gran. Llavors vam provar de cridar vàries instàncies del Moyea a la vegada, a veure si podíem anar generant diferents vídeos de forma concurrent. I va sortir perfectament.
Així doncs, només calia que, quan generem un videollibre i arribem al pas de generar tots els vídeos d’un mòdul, en comptes d’anar-ho fent en sèrie, un darrera l’altre, creem uns quants threads (controlem el número màxim amb una constant) i anem convertint uns quants arxius flash a la vegada.
És així com ho hem acabat fent i, la veritat, és que el rendiment ha millorat molt. Ara a veure com es comporta a llarg termini. Ja us explicarem!
Publicat per: alejobs el: juliol 30, 2009
Un dels objectius que tenim fixats dins del projecte MyWay (generació dels continguts de les assignatures en diferents formats) és aconseguir un ritme de generació bastant elevat. Penseu que no només hi ha els continguts nous d’aquest any, sinó que també tenim tota una llarga llista d’assignatures d’anys passats i que també hem de generar.
Amb aquest objectiu al cap, i sabent que els continguts que triguen més a generar-se són els audiollibres i els videollibres (generar un ebook al estil epub o mobipocket d’una assignatura no costa més de 5 minuts!!), ens vam posar a pensar de quines maneres podíem accelerar el procés de generació.
Primer de tot, vàrem veure que no podíem permetre’ns el luxe de generar només una assignatura a la vegada, doncs un videollibre podia arribar a trigar fins a 24h en generar-se. Així doncs vam establir, dins del nostre projecte (J2EE + Spring + Tomcat) un sistema de gestió de treballs o tasques amb Quartz. Nosaltres programem els treballs que volem fer i establim el màxim número de treballs (o threads dins del nostre generador) que es poden estar executant alhora.
D’aquesta manera també aconseguim que, si s’està generant un videollibre, no bloquegi durant 24h o més el procés de generació d’un ebook o audiollibre. Nosaltres tenim establerts 3 treballs: un que va comprovant si hi ha assignatures noves a generar (en cas afirmatiu inserta una petició d’aquella assignatura per cadascun dels 4 formats actuals), un que genera els formats d’ebook (epub i mobipocket) i un altre que genera els formats amb veu (audiollibre i videollibre).
Aquests 3 treballs “programats” s’executen, tal com hem esmentat, alhora, fins a un màxim de 3 treballs concurrents (podem augmentar o disminuir aquest número al nostre gust). Així doncs podem tenir al mateix temps generant-se 3 formats de 3 assignatures diferents (3 videollibres o 2 videollibres i 1 audiollibre …). Tot depèn de la capacitat i càrrega del servidor on s’estigui executant!
En la pròxima entrada explicarem com vàrem millorar, a continuació, el procés de generació d’un videollibre.
Publicat per: joseprivera el: juliol 23, 2009
Estem desenvolupant una eina d’anotacions que permet destacar textos de pàgines html com fariem amb un rotulador a sobre d’un paper. És el que s’ha fe tota la vida: amb un llàpis subtratllem allò que creiem més interessant d’un llibre. Per saber-ne més podeu llegir l’entrada coresponent del al web del peojecte MyWay.
Ara bé, amb la web podem fer coses molt interessants que amb paper serien impossibles. Si agreguem tots els destacats, construïm automàticament un resum (1). Tambè pot servir per a rectificar alguna dada, nomès cal destacar el text erroni i afegir un comentari (2). A més professor i estudiant poden preguntar-se coses dins d’un context: “AIXÒ no s’enten, m’ho pots explicar?” (3). I finalment, uns i altres poden compartir les seves troballes, els seus comentaris (4).
En tot cas al que realment m’engresca és que estem creant una eina que ha de permetre a cada estudiant crear les seves pròpies col·leccions. M’explico. Recordo haver llegit fa anys “El pensament salvatge” de l’antropòleg Lévi-Strauss. Haig de reconèixer que no vaig entendren ni un borrall, però una cosa em va quedar clara: el francès descobreix un pensament (que va anmomenar “salvatge” tot i que és tan actual i important com el “científic”) que es caracteritza pel fet que qui el porta a terme col·lecciona fragments d’informació o eines, les classifica i posteriorment les fea servir fora del seu context original. Clar i ras: les recicla.
I què és l’eina d’anotacions sino una eina de reciclatge? Una eina que permet que cadascú es creii les seves pròpies col·leccions i les endreci d’una manera determinada? Encara més: una eina que permet que els estudiants comparteixin no sol les peces sinó tambè la forma de classificar-les. És el pensament salvatge… 2.0.
Publicat per: joseprivera el: juliol 9, 2009
La setmana passada vaig tenir la sort d’assistir a unes jornades que organitzava la Càtedra Unesco i a on es va parlar d’un concepte que es comença a sentir força: el Social Open Learn. Encara no s’hi troba a la Wikipedia, però no trigarà en arribar-hi. Altres termes similars com Open learning, Cooperative Learning i Social Learning si que hi son presents a l’enciclopèdia.
Clar i ras: apendre sol està bé però apendre en comunitat és encara millor perquè es desencadenen tot un seguir de factors emocionals que porten l’aprenentatge un pas més endavant. Apendre amb altres era un procès que havia estat confinat fins ara a les aules, ja siguin d’una escola o d’una universitat. Però Internet ha dinamitat aquests límits.
Acaba aquesta dinàmica amb les universitats? Segurament no, però alguna cosa canviarà. Anem a pams. Per a analitzar els canvis farem servir l’anàlisi que fa en David Wailey divideix de la cadena de valor d’una institució docent. Ell hi veu tres elements: la creació de coneixement; l’aprenentatge; i l’acreditació.
Respecte al primer punt queda clar que avui en dia una universitat no pot confinar el coneixement que genera dins dels seus murs. Mai ha sigut així i avui en dia és encara més evident que hi ha d’haver una permeabilitat entre el que s’explica dins i el que s’explica fora. Els propis estudiants forcen dia a dia aquesta osmosi, posant en entredit el que se’ls hi explica.
Però l’aprenentatge tambè canvia: s’obre a l’exterior arrossegat novament per la pressió dels propis estudiants que volen mostrar el que estan aprenent i contrastar-lo amb una comunitat tant amplia com sigui possible. Tammateix, cada cop és més fàcil que comunitats no oficials organitzin el seu aprenentatge al voltant d’eines col·laboratives.
Fins i tot l’acreditació es pot veure afectada. QUè impedeix que els propis alumnes s’avaluin entre ells? En un món cada cop menys meritocràtic, en comptes de fiar-nos dels demès busquem nosaltres mateixos les dades que ens serviran per a desenvolupar el nostre propi criteri. Així doncs, perquè el criteri del professor és el que ha de ser el de referència?
En aquest escenari comencen a pendre força la idea d’una Plataforma d’Aprenentatge Obert: una eina que agregui les tasques que un alumne va fent aquí i allà i que faciliti coses com ara l’usabilitat de l’entorn i la traçabilitat que necessita el professor per avaluar.
L’Ismael Peña ha fet un resum excelent de les jornades en una, dos i tres parts. Altrament paga la pensa seguit el blog de Dolors Reig, tot un referent en aquests temes.
Publicat per: ajuhe el: juliol 8, 2009
En el últim post sobre detecció de duplicats les coses no pintaven bé, s’havia fet una primera versió del detector, però no acabava de ser el que necessitem, ja que detectava duplicats exactes, això vol dir que un parell de documents amb l’ordre dels paràgrafs canviats el considerava diferents. El objectiu del projecte quedava modificat, no busquem duplicats, sinó near-duplicates, o sigui documents que son iguals en contingut, simple i obvi, no?
Per desenvolupar el nou algoritme ens hem començat per llegir una sèrie d’articles que parlen d’aquest tema, i a partir d’aquests articles hem desenvolupat el algoritme de Charikar’s simhash (és el mateix que utilitza google).
Detecting NearDuplicates for Web Crawling
Similarity estimation techniques frum rounding Algorithms
Finding NearDuplicate Web Pages: A LargeScale Evaluation of Algorithms
L’algoritme consisteix en:
Els documents que es volen avaluar es separen en ngrams (paraules agrupades de n en n), per cada una d’aquestes paraules, es diuen tokens normalment, generem un valor de hash de 64bits, nosaltres hem utilitzat el Ranbin hash perquè és molt ràpid.
És crea paral.lelament un Vector de ints de tantes posicions com bits té la funció de hash (64b), inicialitzat a 0.
Cada ith bit del valor hash modifica el valor vth del vector de la següet manera:
ith = 1 incrementem el bit vth del vector en 1
ith = 0 decrementem el bit vth del vector en 1.
per exemple:
Si hash(hola) = 0 1 1 1 0 1 1 0 0 0
v = 1 1 0 2 -3 6 -2 0 0 0
vfinal = 0 2 1 3 -4 7 -1 -1 -1 -1
al final ens quedarà un vector així:
V = [-123,-76,10,0,0,-12,1,3] aquest vector el transformem amb un fingerprint de la següent manera:
si ith valor > 0 vth bit del fingerprint 1
si ith < 1 vth bit del fingerprint 0
així doncs quedaria així F = [0,0,1,0,0,0,1,1]
I aquest és l'algoritme.
El pròxim post, analitzarem els test obtinguts d'aplicar aquest algoritme.
Publicat per: ajuhe el: juny 30, 2009
La primera versió del detector de duplicats ja està en marxa, i una vegada en marxa veiem les seves mancances.
En aquests moments detectem documents duplicats en el cas que un document sigui idèntic a un altres o un respecte l’altre només variïn paraules que no son paraules clau. Això està bé, però no es suficient, el que volem detectar son el que s’anomena near-duplicates, documents idèntics en contingut.
Dos documents poden ser idèntics en contingut però amb diferent estructura o poden contenir parts del text poc rellevants, títols o annexes.
Aquesta és la situació que hem detectat, tenim documents en diferents formats (PDF, web, xml,…), si extraiem el text d’aquests documents ens podem trobar que el PDF té idèntic contingut que el XML, però amb l’ordre dels elements canviats, per tant el sistema considera que son diferents. També podem trobar que del xml extraiem el contingut dels tags, però no el nom dels tags (introducció, objectius,…), en el PDF s’extreuen els nom dels tags perquè estan com a contingut, i elements extres com el Index del PDF, i els currículums i les fotos i els elements flash i els exercicis que es maqueten d’una manera especial i la bibliografia i el glossari i i i més més més,……………………………………………
Per tant s’ha de buscar un altre sistema hem de passar d’un detector de duplicats a un detector de near-duplicates.
Google porta treballant amb aquest tema des de com a mínim el 2005, ha tret un sistema de detecció de duplicats i la patentat, com sempre un pas endavant. Goole a montat el seu sistema de duplicats basant-se en el Charikar’s simhash fingerprint. Que és? Com funciona? ho deixem per la proxima.
Referencies:
http://dsrg.mff.cuni.cz/~holub/sw/shash/#a1.
Similarity Estimation Techniques from Rounding Algorithms
Detecting NearDuplicates for Web Crawling