Surfistes a càmara lenta

Posts Tagged ‘Lucene

Estem construint un cercador que ha de contestar les preguntes de l’alumne:

Quina va ser la primera ciutat fenicia?
Capital de França.
Que és la psicologia cognitiva?
Definició de estatut.

Desenvolupem petites releases per arrivar al objectiu esmentat anteriorment.
Per desenvolupar aquest projecte estem utilitzant Lucene, Lingpie i llegim papers i mes papers sobre aquesta temàtica.
Els materials estàn indexats ens fragment per mirar de donar una millor resposta.

Ha sortit la nova release del cercador de materials de la UOC, amb les següents novetats, obtingudes de les reunions amb els departament de lingüística computacional.
[1]- Indexació de paraules per 3-grams,4-grams Català i castellà per “Has volgut dir”.
[2]- Indexació dels corpus català, castellà i anglès per indexar i buscar.
[3]- Algoritme de stemer genèric que calculem a partir de la indexació 3-4 grams anterior.

Nou “Has volgut dir”:
Actualment per exemple si busquem: piromides egipocies
El sistema ens diu: piràmides egípcies. Evidentment hi ha altres casos que diu coses rares.
Algoritme que hem implementat:
Si no troba cap resultat o menys de deu, divideix les paraules de la cerca en 3-4 grams i llença un cerca sobre les col·leccions (corpus en funció del idioma) de 3-4 grams, donant més pes al n-grams inicials, amb els 10 millors resultats aplica l’algoritme de JaroWinkler Distance i tria la paraula que té un % més alt però com a minim 80%.
És podria millorar el sistema tenint en compte la funció que fa la paraula (Nom, verb, adjectiu,…)?
per exemple:
Si piràmides es un NCFP000 puc considerar egípcies AQ0FP0 (ja que pot funcionar de N ó A i com va enredera un N la considero un A) i donar més pes a piràmides?
Puc seguir algun tipus de regle com la que us he dit anteriorment?
El que m’agradaria és poder contestar les preguntes de l’usuari.
On puc trobar patrons de preguntes dels usuaris per aproximar mé la resposta?
Categoritzant, o sigui de que parla el document (historia,psicologia,…), milloraria les cerques?
Aquestes son algunes de les preguntes que ens plantegem per millorar el sistema.