Surfistes a càmara lenta

Doraemon + DicWiki: generació d’un diccionari temàtic per detectar objectes de petició i resposta en un missatge

Posted on: Abril 29, 2010

Introducció

El projecte Doraemon és un projecte PID que pretén presentar al consultor suggerències de resposta a la consulta d’un alumne. Una de les tasques del projecte és la detecció dels objectes de la petició (OP) i de resposta (OR) en els missatges que alumnes i professor deixen en els fòrums. Concretament, ens interessa detectar OPs i ORs relacionats amb el tema de l’assignatura. Per exemple, imaginem que en el cos del missatge es troba la frase Estic intentant de fer la transcripció fonètica del text de la PAC i no tinc gens clar com fer-ho. L’aplicació hauria de detectar aquesta frase per identificar el que vol l’estudiant (saber com realitzar una activitat) i identificar transcripció fonètica– i no PAC, per exemple-, com l’OP, ja que és el terme de l’assignatura que fa referència a l’activitat que no sap fer. Aquest OP és, al seu torn, l’OR de la frase d’un missatge que li resol el dubte. Per exemple,  per fer la transcripció fonètica d’un text, consulta la taula de l’Alfabet Fonètic Internacional. Així transcripció fonètica és la paraula clau amb al qual es fa el mapping entre el dubte i la resposta. D’altra banda, Alfabet Fonètic Internacional és un terme que manté amb transcripció fonètica una relació conceptual estreta, i que pot llençar la presentació d’informació complementària, com podria ser la referència a una pàgina que expliqui i mostri la taula de l’alfabet.

El diccionari

Com hem dit, ens interessa detectar OPs i ORs relacionats amb el tema de l’assignatura. Per aquesta raó hem creat un diccionari temàtic que recull les expressions regulars que poden ser detectades com OP o OR en els missatges dels fòrums d’una aula, o bé poden servir llençar informació complementària. Segons consta en la proposta de projecte PID, les aules escollides per fer l’avaluació han estat les de lingüística. Per aquesta raó hem generat un diccionari de conceptes de lingüística.

Per realitzar el diccionari de lingüística hem fet servir el DicWiki, agafant com a base la Viquipèdia anglesa i presentant els conceptes en anglès i català. El nombre d’entrades generades són d’aproximadament 15000, i fan referència a categories temàtiques com la fonètica, la sintaxi, la sociolingüística, el processament del llenguatge natural, la pragmàtica, la gramàtica generativa, etc. El diccionari té format de text tabulat i en cada línia s’exposa la següent informació

– Entrada en anglès

– Equivalent en català

– Categoria temàtica

Els equivalents en català són les expressions regulars que s’han de detectar com OP o OR en els missatges dels fòrums.

L’escàs nombre d’equivalents en català

Malauradament, no hem trobat molts equivalents en català. La font terminològica de referència- el TermCat- té un glosssari multilingüe de pagament de termes lingüístics en català, disponible en el fons de l’ELRA (European Language Resources Association), però només té 1500 termes amb correspondència anglès-català. Malgrat tot, del catàleg Terminologia Oberta del TermCat, hem aprofitat el glossari de lliure distribució de termes normalitzats, on apareixen termes relacionats amb la lingüística en anglès i català. Ara bé, la cobertura respecte al diccionari generat és de l’1,25%. D’altra banda, els equivalents en català trobats a les entrades de la Viquipedia anglesa, i que no estan en els glossaris del TermCat, tenen una cobertura del 14,5%. Tot i que la cobertura és superior a la del TermCat, si volguéssim que el diccionari fós una font de consulta terminològica, aquests equivalents s’haurien de revisar i validar per terminòlegs. No és, però, l’objectiu d’aquest diccionari, el qual és el de llistar unes expressions regulars útils per trobar en els missatges possibles OP i OR.

L’ús de la traducció automàtica de termes

Precisament perquè volem expressions regulars candidates a ser OP i OR, hem cobert el buit d’entrades que no tenim en un diccionari terminològic, traduint automàticament al català els termes en anglès. El traductor escollit ha estat el Google Translate per la següent raó: el motor és estadístic i, sense tenir un diccionari terminològic de referència, presenta les traduccions de termes que són més probables tenint en compte tant l’ús real de la llengua origen com el de la llengua destí. Això fa que la traducció tingui més probabilitat de ser conseqüent amb l’ús real del terme que no pas un traductor que, sense un diccionari terminològic especialitzat, faci traduccions literals. És el cas, per exemple, de machine translation que Google Translate tradueix com traducció automàtica i no com màquina de traducció o traducció màquina. Evidentment, les traduccions del Google Translate no sempre són bones. De tota manera, si estan presents en els missatges dels estudiants o del professor, són útils per detectar l’OP o l’OR.

Treball futur

Les errades de detecció d’OPs i ORs causades per les traduccions automàtiques  poden ser vàries, i algunes són sistemàtiques. Actualment estem treballant en la detecció d’OPs i ORs amb traduccions automàtiques imperfectes, tenint en compte les diferències sistemàtiques que puguin existir entre el terme traduït i l’OP o l’OR del missatge. D’altra banda, també treballarem en la detecció d’OPs i ORs amb faltes d’ortografia i errors de picatge, la qual cosa és habitual en la comunicació per correu electrònic. En aquest cas es tindran en compte les diferències entre l’OP o OR mal picat i un equivalent del diccionari. Solventats aquests problemes, podrem fer una avaluació de la utilitat del diccionari en la detecció automàtica d’objectes de consulta i resposta.

Advertisements

3 Respostes to "Doraemon + DicWiki: generació d’un diccionari temàtic per detectar objectes de petició i resposta en un missatge"

[…] En un post anterior explicàvem una aproximació en la detecció d’objectes de pregunta (OP) i objectes de […]

[…] escrit en català. Això és possible recuperant l’equivalent en anglès del candidat en el diccionari del tema elaborat via el […]

[…] Fa uns mesos explicàvem com un diccionari sobre un tema generat amb el DicWiki podia ser útil per identificar […]

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s

%d bloggers like this: