Surfistes a càmara lenta

Posts Tagged ‘xml

Estem construint un cercador que ha de contestar les preguntes de l’alumne:

Quina va ser la primera ciutat fenicia?
Capital de França.
Que és la psicologia cognitiva?
Definició de estatut.

Desenvolupem petites releases per arrivar al objectiu esmentat anteriorment.
Per desenvolupar aquest projecte estem utilitzant Lucene, Lingpie i llegim papers i mes papers sobre aquesta temàtica.
Els materials estàn indexats ens fragment per mirar de donar una millor resposta.

Ha sortit la nova release del cercador de materials de la UOC, amb les següents novetats, obtingudes de les reunions amb els departament de lingüística computacional.
[1]- Indexació de paraules per 3-grams,4-grams Català i castellà per “Has volgut dir”.
[2]- Indexació dels corpus català, castellà i anglès per indexar i buscar.
[3]- Algoritme de stemer genèric que calculem a partir de la indexació 3-4 grams anterior.

Nou “Has volgut dir”:
Actualment per exemple si busquem: piromides egipocies
El sistema ens diu: piràmides egípcies. Evidentment hi ha altres casos que diu coses rares.
Algoritme que hem implementat:
Si no troba cap resultat o menys de deu, divideix les paraules de la cerca en 3-4 grams i llença un cerca sobre les col·leccions (corpus en funció del idioma) de 3-4 grams, donant més pes al n-grams inicials, amb els 10 millors resultats aplica l’algoritme de JaroWinkler Distance i tria la paraula que té un % més alt però com a minim 80%.
És podria millorar el sistema tenint en compte la funció que fa la paraula (Nom, verb, adjectiu,…)?
per exemple:
Si piràmides es un NCFP000 puc considerar egípcies AQ0FP0 (ja que pot funcionar de N ó A i com va enredera un N la considero un A) i donar més pes a piràmides?
Puc seguir algun tipus de regle com la que us he dit anteriorment?
El que m’agradaria és poder contestar les preguntes de l’usuari.
On puc trobar patrons de preguntes dels usuaris per aproximar mé la resposta?
Categoritzant, o sigui de que parla el document (historia,psicologia,…), milloraria les cerques?
Aquestes son algunes de les preguntes que ens plantegem per millorar el sistema.

Com segurament coneixeu, els estudiants de la UOC reben tots els materials didàctics que necessiten a casa abans de l’inici de les classes. Tots aquests materials pertanyen a la Universitat i han estat elaborats per la nostra editorial. Sumant totes les assignatures, disposem de més de 2000 obres: un volum important.

En  un principi aquests materials eren llibres. Desrpès van aparèixer algunes webs que es distribuïen en CD. Ens vàrem adonar que els estudiants que rebien els CDs reclamaven els materials en format paper, principalment per llegir a casa, i els que rebien els llibres volien la web per a eralitzar consultes puntuals.

Així doncs ens vam decidir per incloure la tecnologia XML al nostre procès editorial, cosa que ens permetia generar sortides pdf i web automàticament. El canvi va ser tot un encert. Actualment la meitat dels nostres continguts estan en format XML i gràcies a això els podem lliurar en sis formats diferents sense que això ens suposi un cost extra: pdf, web, mobipocket, epub, audio sintètic i uns “videollibres” que anomem “karaoke”. El nom que fem servir per a agrupar tots aquests desenvolupament és MyWay: donem el contingut en diferents formats i els estudiants fan servir el que volen segons les seves necesstats concretes.

Com sempre, varem començar a marcar en XML amb més ganes que coneixement. Vam utilitzar els nostres pròpis tags sense tenir en compte que en el mercat ja existien sistemes com DTBook i DocBook. Un exemple: el que per a nostres és un “mòdul”, per a DTBook és un “level” i per a DocBook és un “chapter”.

Tenir un sistema de marques estàndard no és imprescindible, però ajuda a compartir els desenvolupaments amb altres institucions i a aprofitar programes ja existents. I és precissament això el que volem. Així doncs, ens hem decidit a adoptar algun dels sistemes de marques ja existents. Ara el dubte és saber quin.

Els dos sistemes que coneixem son DocBook i DTBook. Encara no ens hem decantat per cap d’ells. Tot just estem analitzant els pros i els contres de cada un d’ells. Us deixo aquí les notes que hem anat prenent per si és del vostre interès:

DTBook

  • Hi ha plug-ins de “save as…” per a word (+1)
  • Hi ha plug-ins de “sace as…” per a openoffice (+1)
  • Compatible amb ePub (+1)
  • Compatible amb Daisy (+1)
  • 80% dels nostres tags (-1)
  • Es pot incloure MathML (+1)
  • Al formar part de l’especificació DAISY, reb el suport d’institucions que vetllen per l’accessibilitat dels continguts (+1)
DocBook