Surfistes a càmara lenta

Posts Tagged ‘Multiformat

Un cop millorat el rendiment “global” del nostre generador, volíem fer més ràpid el procés de generació dels videollibres, doncs és el format que menys hem generat fins ara i el que triga més.

Per això vam fer unes estadístiques detallades de quant es trigava en generar un videollibre. I vam veure que el “coll d’ampolla” estava, principalment, al procés de conversió de Flash a Video (MPEG-4). Podia arribar a ser entre un 75 i un 83% del temps total de generació. Aquest procés s’executa a través d’un programa anomenat Moyea. El cridem des del nostre projecte Java, indicant-li el path de l’arxiu Flash (.swf) i els paràmetres del vídeo MPEG-4 de sortida.

Un dels incovenients del conversor de flash a vídeo (i encara no hem trobat cap que ho sàpiga fer) és que no sap quant dura aquest, ja que tota l’animació està basada en actionscript. Per a ell és com un flash d’1 sol frame, i si no li indiquem res, recorre aquest frame i deixa de capturar. Per a evitar això, Moyea té la opció d’indicar-li els segons que vols que estigui capturant el Flash.

És per això que cada conversió d’un flash dura com a mínim el temps de reproducció del mateix. Això ens causa un coll d’ampolla molt gran. Llavors vam provar de cridar vàries instàncies del Moyea a la vegada, a veure si podíem anar generant diferents vídeos de forma concurrent. I va sortir perfectament.

Així doncs, només calia que, quan generem un videollibre i arribem al pas de generar tots els vídeos d’un mòdul, en comptes d’anar-ho fent en sèrie, un darrera l’altre, creem uns quants threads (controlem el número màxim amb una constant) i anem convertint uns quants arxius flash a la vegada.

És així com ho hem acabat fent i, la veritat, és que el rendiment ha millorat molt. Ara a veure com es comporta a llarg termini. Ja us explicarem!

Finalment, hem escollit DocBook com a candidat per substituïr el nostre entranyable sistema de marques. Tots hi hem estat d’acord. Entre els motius que ens han portat a pendre aquesta decisió, cal destacar el fet que el conjunt d’etiquete de DocBook és molt complert, que és molt conegut en el món editorial i que tè una comunitat activa i nombrosa al darrera. El punt a favor de DTBook és el suport de la indústria, un suport que també tè DocBook.

Ara hem d’analitzar amb detall si és possible adaptar els nostres continguts a DocBook i què fem amb les incompatibilitats que apareguin – que n’hi haurà. Encabat haurem d’escriure un full de ruta per a l”adaptació del procès editorial al nou marcatge. I sol serà aleshores que prenguem la decisió final.

Estem construint un cercador que ha de contestar les preguntes de l’alumne:

Quina va ser la primera ciutat fenicia?
Capital de França.
Que és la psicologia cognitiva?
Definició de estatut.

Desenvolupem petites releases per arrivar al objectiu esmentat anteriorment.
Per desenvolupar aquest projecte estem utilitzant Lucene, Lingpie i llegim papers i mes papers sobre aquesta temàtica.
Els materials estàn indexats ens fragment per mirar de donar una millor resposta.

Ha sortit la nova release del cercador de materials de la UOC, amb les següents novetats, obtingudes de les reunions amb els departament de lingüística computacional.
[1]- Indexació de paraules per 3-grams,4-grams Català i castellà per “Has volgut dir”.
[2]- Indexació dels corpus català, castellà i anglès per indexar i buscar.
[3]- Algoritme de stemer genèric que calculem a partir de la indexació 3-4 grams anterior.

Nou “Has volgut dir”:
Actualment per exemple si busquem: piromides egipocies
El sistema ens diu: piràmides egípcies. Evidentment hi ha altres casos que diu coses rares.
Algoritme que hem implementat:
Si no troba cap resultat o menys de deu, divideix les paraules de la cerca en 3-4 grams i llença un cerca sobre les col·leccions (corpus en funció del idioma) de 3-4 grams, donant més pes al n-grams inicials, amb els 10 millors resultats aplica l’algoritme de JaroWinkler Distance i tria la paraula que té un % més alt però com a minim 80%.
És podria millorar el sistema tenint en compte la funció que fa la paraula (Nom, verb, adjectiu,…)?
per exemple:
Si piràmides es un NCFP000 puc considerar egípcies AQ0FP0 (ja que pot funcionar de N ó A i com va enredera un N la considero un A) i donar més pes a piràmides?
Puc seguir algun tipus de regle com la que us he dit anteriorment?
El que m’agradaria és poder contestar les preguntes de l’usuari.
On puc trobar patrons de preguntes dels usuaris per aproximar mé la resposta?
Categoritzant, o sigui de que parla el document (historia,psicologia,…), milloraria les cerques?
Aquestes son algunes de les preguntes que ens plantegem per millorar el sistema.