Surfistes a càmara lenta

Doraemon – DicWiki: un Doraemon escalable

Posted on: Octubre 1, 2010

Fa uns mesos explicàvem com un diccionari sobre un tema generat amb el DicWiki podia ser útil per identificar, en un missatge que l’alumne envia al seu consultor, els objectes de pregunta (OP) i resposta (OR) sobre l’assignatura. Tal com explicàvem al juliol, el núvol de candidats a OP i OR està organitzat de manera que  els termes del domini estan abans que els termes que no ho són. Ara bé, la generació de diccionaris per totes les assignatures, amb temàtiques ben dispars, és un pas previ que podria retardar l’aplicació del Doraemon a totes les assignatures.

Tenint en compte això, s’ha pensat un mètode que detecti els termes del missatge que probablement són del domini temàtic sense fer servir cap diccionari. Existeixen vàries tècniques de detecció de termes d’un domini temàtic sense fer servir diccionaris. La majoria són costoses, com la del tf.idf, que requereix la recopilació d’un corpus significatiu de l’ús general de la llengua, el qual serveixi per contrastar l’ús de termes d’un domini concret. D’altra banda, els mails no són prou llargs com perquè el càlcul de probabilitat de la pertenença d’un terme a un domini, i no al vocabulari general, sigui prou significatiu.

El nostre mètode es basa en la hipòtesi de que el vocabulari general, no vinculat a una temàtica, té més freqüència en una cerca Google que un terme específic del domini. Per això distingim els termes de l’e-mail que tenen una freqüència que supera un llindar (candidats a ser vocabulari general) d’aquells que no el superen. Aquests últims són candidats a ser termes del domini. Aquest criteri és un criteri ad-hoc que pot ser rebatut en alguns casos, com el de ‘galeta’ que pot ser tant del vocabulari general com vinculat al domini temàtic de la informàtica. De tota manera,  l’apliquem perquè no suposa cap pèrdua d’informació per al consultor. L’unica conseqüència és que un terme erròniament classificat com de vocabulari general apareixerà després dels termes del domini. Però el consultor el podrà seleccionar igualment.

Per fer les distincions vocabulari general/vocabulari específic hem fet servir el diccionari català-anglès DACCO en XML, que és lliure i que es pot baixar des d’aquí. Concretament, hem extret el nombre de resultats en una cerca Google dels termes. Aquesta dada està a l’entrada de cada paraula del diccionari. Després de fer un cop d’ull mirant la freqüència de paraules del vocabulari general com ‘pare’ o ‘cotxe’, s’ha establert els 10000 resultats com a llindar per distingir un vocabulari de l’altre. De l’avaluació del Doraemon, veurem si cal modificar aquest llindar.

Doraemon – DicWiki, el que havíem unit en un post ho separem en aquest. Ja veieu el que duren les coses És el que passa amb l’amor, com diuen els Joy Division (versió Nouvelle Vague)?

?

Advertisements

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s

%d bloggers like this: