Surfistes a càmara lenta

Fent la Doraemon-butxaca més gran

Posted on: Juny 3, 2010

En un post anterior explicàvem una aproximació en la detecció d’objectes de pregunta (OP) i objectes de resposta (OR) per al projecte Doraemon. Recordem que un objecte de pregunta és el concepte sobre el qual un estudiant fa una consulta, i l’objecte de resposta és aquest mateix concepte però trobat en un context que al consultor li és útil per donar una resposta.

El mètode explicat en aquest post era insuficient, ja que no podia detectar OPs i ORs amb aquestes característiques

  • L’OP o l’OR està en una forma diferent a com apareix en el diccionari
  • L’OP o l’OR és diferent de l’equivalent del diccionari obtingut per traducció automàtica
  • L’OP o l’OR està mal picat o té faltes d’ortografia

OPs i ORs en una forma diferent a la del diccionari

En els diccionaris, la denominació dels conceptes està en forma lematitzada. Això vol dir que, malgrat tinguem ‘lexema’ en el diccionari, no podíem recuperar la seva forma plural ‘lexemes’. Per tant, no es podien detectar com OP o OR les formes femenines, ni els plurals dels lemes que ja teníem en el diccionari.

Per superar aquesta limitació, hem generat totes les formes possibles dels lemes segons les regles lèxiques del traductor automàtic Apertium. Les raons són les següents

  • Les regles lèxiques de l’Apertium serveixen per reconeixer les formes de les paraules de qualsevol text en català. La cobertura de paraules és important
  • Les regles lèxiques s’apliquen també per reconèixer lèxic específic de les assignatures impartides a la UOC així com termes d’ús específic a la UOC
  • La generació del formari no està subjecte a cap restricció d’ús ni econòmica ja que els recursos de l’Apertium i la seva explotació són lliures

De moment, hem generat les formes dels noms i dels adjectius per tal de tenir una bona cobertura de termes formats per un nom o per la combinació nom+adjectiu (‘morfema lliure’, ‘morfemes lliures’, etc.). Més endavant, està previst generar també les formes verbals, ja que hi ha verbs que tenen un ús molt específic en dominis temàtics concrets, tal és el cas de ‘comandar’, o més exactament ‘c-comandar’ en la gramàtica generativa. La generació automàtica de les formes s’ha fet de la següent manera. Cada entrada nominal i adjectival del diccionari de l’Apertium conté l’arrel de la paraula i una etiqueta que relaciona l’arrel amb les desinències de singular, plural, masculí i femení que s’han d’afegir a l’arrel. L’script que hem creat simplement fa un mapping entre el pattern i les desinències que li corresponen, i les concatena a l’arrel.

OPs i ORs diferents de l’equivalent per traducció automàtica

Els equivalents en català obtinguts per traducció automàtica no sempre són correctes. De tota manera, hi ha casos en què l’equivalent i l’OP o l’OR real tenen unes diferències sistemàtiques que responen a fenòmens interlingüístics que s’han de tenir en compte a l’hora de traduir. Aquests fenòmens solen estar recollits, en els motors de traducció automàtica basats en regles, a les gramàtiques anomenades de transferència. Un exemple molt comú de transferència anglès-català és la inclusió de la preposició ‘de’ en la traducció al català de termes anglesos que són la combinació de dos substantius. Un altre exemple és l’ordre diferent de les paraules en anglès i català. Com a mostra, tenim la traducció Montague gramàtica de l’original Montague grammar. Montague gramàtica és el resultat de no haver tingut en compte aquests fenòmens interlingüístics, amb la qual cosa no s’ha generat la forma correcta gramàtica de Montague.

Tenint en compte això, hem aplicat un mètode ad-hoc d’identificació d’OPs i ORs, malgrat tenir equivalents mal traduïts. Aquest mètode consisteix en identificar, en el context, una cadena de paraules anb un parell de conceptes que tenen una denominació en el diccionari. En l’exemple d’abans, s’identificaria la cadena gramàtica de Montague, entre d’altres. Treiem les paraules funcionals, quedant-nos simplement en la denominació del parell de conceptes, i busquem en el diccionari una denominació que, treient-li també les paraules funcionals, es quedi amb la denominació d’aquests conceptes, independentment de l’ordre en que apareixin. Això vol dir que en l’exemple anterior, l’equivalent ‘gramàtica Montague’ tindria exactament la forma que hauria tingut ‘gramàtica de Montague’ si se li hagués tret la preposició. Per tant, ‘gramàtica de Montague’ s’identifica com l’OP o OR.

Hi ha altres fenòmens lingüistics que s’haurien de tractar, com la transformació de categoria gramatical entre la forma origen i la final (climate change-> cambio climático), però en tot cas ho abordarem en un estadi més desenvolupat del projecte, ja que requereix d’un estudi a fons dels fenòmens interlingüístics de les llengües implicades. L’anàlisi de la gramàtica de transferència català-anglès del motor Apertium pot ser de gran ajuda.

OPs i ORs dels missatges mal picats i amb faltes d’ortografia

És bastant habitual trobar en els missatges de correu electrònic paraules amb errors de picatge i amb faltes d’ortografia. La manera de recuperar OPs i ORs amb errors d’aquest tipus ha estat calculant un índex de similitud entre una combinació d’una o més paraules (ngrams) del missatge i una combinació d’una o més paraules del formari generat amb les regles lèxiques de l’Apertium. Així hem pogut identificar com OP, per exemple, trascripció fonètica, perquè supera el llindar de similitud respecte a una forma del diccionari temàtic (transcripció fonètica)

Advertisements

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out / Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out / Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out / Canvia )

Google+ photo

Esteu comentant fent servir el compte Google+. Log Out / Canvia )

Connecting to %s

%d bloggers like this: