Fa uns mesos explicàvem com un diccionari sobre un tema generat amb el DicWiki podia ser útil per identificar, en un missatge que l’alumne envia al seu consultor, els objectes de pregunta (OP) i resposta (OR) sobre l’assignatura. Tal com explicàvem al juliol, el núvol de candidats a OP i OR està organitzat de manera que els termes del domini estan abans que els termes que no ho són. Ara bé, la generació de diccionaris per totes les assignatures, amb temàtiques ben dispars, és un pas previ que podria retardar l’aplicació del Doraemon a totes les assignatures.
Tenint en compte això, s’ha pensat un mètode que detecti els termes del missatge que probablement són del domini temàtic sense fer servir cap diccionari. Existeixen vàries tècniques de detecció de termes d’un domini temàtic sense fer servir diccionaris. La majoria són costoses, com la del tf.idf, que requereix la recopilació d’un corpus significatiu de l’ús general de la llengua, el qual serveixi per contrastar l’ús de termes d’un domini concret. D’altra banda, els mails no són prou llargs com perquè el càlcul de probabilitat de la pertenença d’un terme a un domini, i no al vocabulari general, sigui prou significatiu.
En Doraemon se’n va de vacances
Posted on: juliol 30, 2010
En Doraemon se’n va de vacances havent fet els següents deures:
- Mostra missatges dels fòrums d’una assignatura que poden contenir una possible resposta a la consulta d’un alumne
- Mostra contextos útils per a trobar una resposta que provenen dels materials didàctics
- Llista referències externes sobre els temes consultats. Les referències, de moment, són articles de la Viquipèdia i els articles o llibres sobre el tema en qüestió referenciats al Delicious
- Mostra contextos trobats via un cercador tipus Google que li poden ser útils al consultor per trobar una resposta.
Fent la Doraemon-butxaca més gran
Posted on: juny 3, 2010
En un post anterior explicàvem una aproximació en la detecció d’objectes de pregunta (OP) i objectes de resposta (OR) per al projecte Doraemon. Recordem que un objecte de pregunta és el concepte sobre el qual un estudiant fa una consulta, i l’objecte de resposta és aquest mateix concepte però trobat en un context que al consultor li és útil per donar una resposta.
El mètode explicat en aquest post era insuficient, ja que no podia detectar OPs i ORs amb aquestes característiques
- L’OP o l’OR està en una forma diferent a com apareix en el diccionari
- L’OP o l’OR és diferent de l’equivalent del diccionari obtingut per traducció automàtica
- L’OP o l’OR està mal picat o té faltes d’ortografia
Segon workshop del projecte Know2
Posted on: juny 3, 2010
- Desenvolupar tecnologia que permeti extraure i adquirir automàticament informació multilingüe de la Web
- Aplicar aquesta tecnologia en diversos dominis (turisme, medi ambient, ensenyament)
- Crear aplicatius senzills d’obtenció de la informació per als usuaris dels dominis
Doraemon + DicWiki: generació d’un diccionari temàtic per detectar objectes de petició i resposta en un missatge
Posted on: abril 29, 2010
Introducció
El projecte Doraemon és un projecte PID que pretén presentar al consultor suggerències de resposta a la consulta d’un alumne. Una de les tasques del projecte és la detecció dels objectes de la petició (OP) i de resposta (OR) en els missatges que alumnes i professor deixen en els fòrums. Concretament, ens interessa detectar OPs i ORs relacionats amb el tema de l’assignatura. Per exemple, imaginem que en el cos del missatge es troba la frase Estic intentant de fer la transcripció fonètica del text de la PAC i no tinc gens clar com fer-ho. L’aplicació hauria de detectar aquesta frase per identificar el que vol l’estudiant (saber com realitzar una activitat) i identificar transcripció fonètica- i no PAC, per exemple-, com l’OP, ja que és el terme de l’assignatura que fa referència a l’activitat que no sap fer. Aquest OP és, al seu torn, l’OR de la frase d’un missatge que li resol el dubte. Per exemple, per fer la transcripció fonètica d’un text, consulta la taula de l’Alfabet Fonètic Internacional. Així transcripció fonètica és la paraula clau amb al qual es fa el mapping entre el dubte i la resposta. D’altra banda, Alfabet Fonètic Internacional és un terme que manté amb transcripció fonètica una relació conceptual estreta, i que pot llençar la presentació d’informació complementària, com podria ser la referència a una pàgina que expliqui i mostri la taula de l’alfabet.
El diccionari
Com hem dit, ens interessa detectar OPs i ORs relacionats amb el tema de l’assignatura. Per aquesta raó hem creat un diccionari temàtic que recull les expressions regulars que poden ser detectades com OP o OR en els missatges dels fòrums d’una aula, o bé poden servir llençar informació complementària. Segons consta en la proposta de projecte PID, les aules escollides per fer l’avaluació han estat les de lingüística. Per aquesta raó hem generat un diccionari de conceptes de lingüística.
Llegeix la resta d’aquesta entrada »
Temps de canvis
Posted on: febrer 10, 2010
Fa un parell de setmanes vaig tenir l’oportunitat de manternir una llarga i agradable conversa amb un dels editors de la prestigiosa editorial MIT Press. Com sabeu, aquesta empresa publica tots els llibres de text del Massachusets Institute of Technology i entre els seus autors hi ha personatjes tan famosos com Noam Chomsky.
Doncs bé, ells ja tenen una certa experiència en publicació digital. Tenen canal de distribució propi i tambè treballen amb canals com ara Amazon. De fet han provat totes les aproximacions possibles. Els resultats son un xic decebedors. Malgrat els esforços, tan sols un 1% dels beneficis venen actualment d’Internet. Encara pitjor: molt sobint s’hi troben que la versió electrònica pot canivalitzar les vendes dels llibres en paper que son els que els hi donen marges de beneficis important. És per això que molt sobint decideixen no publicar determinats volums en digital.
Respecte als dispositius, el nostre amic es mostrava decebut amb els llibres de tinta electrònica. Esmentava un experiment dut a terme amb 6 estudiants als que s’havia facilitat un Kindle DX de franc abans de començar el curs. Tot i disposar dels seus materials en electrònic, tots ells van preferir comprar la versió impresa. En tot cas, la seva opinió respecte als lector per a iPhones i ordinadors era força més bona.
En tot això vaig pensar al llegir una entrada del fantàstic blog Beat.cat titulada “Tenen les editorials una estratègia per matar el llibre electrònic?“. No crec que sigui així, però entenc el neguit dels editors: els marges cauen. Molts no podran suportar les actuals estructures de costos però alhora és una oportunitat per a nous models de negoci. Temps de canvis.