El
objetivo del proyecto es adaptar y aplicar las tecnologías de
la lengua en cuatro idiomas - castellano, catalán, euskera e inglés
- para mejorar las tecnologías de acceso a información textual
en librerías digitales, Internet, Intranets documentales, hemerotecas,
etc.
Ese
objetivo se realizará en dos fases:
- se
trabajará sobre recursos y algoritmos básicos de tecnologías
de la lengua que pueden ser utilizados para mejorar el acceso
a información textual multilingüe.
- se
construirán dos aplicaciones de acceso a información
multilingüe:
- un
entorno de catalogación y consulta para una hemeroteca virtual
de publicaciones digitales en los cuatro idiomas,
-
un buscador de noticias en Internet capaz de interrelacionar
búsquedas en cualquiera de esos idiomas.
Ambas
aplicaciones comparten dos retos tecnológicos:
- el
primero, superar las técnicas de recuperación de información
basadas en comparaciones literales de los términos de búsqueda,
aproximando la expresión de las consultas a lo que realmente
desea el usuario.
- el
segundo, ser capaces de relacionar documentos y consultas con
independencia del idioma en que unos y otros fueron formulados
originalmente.
Para
resolver estos retos se plantean una serie de objetivos intermedios:
- conseguir mejoras sustanciales
en el estado del arte en el área de resolución de la ambigüedad
léxica.
- desarrollar técnicas
robustas que permitan, para un documento en cualquiera de los
cuatro idiomas contemplados:
-
identificar el idioma;
- identificar
expresiones multipalabra y terminológicas;
- reconocer y
clasificar entidades, y resolver correferencias entre ellas.
- desarrollar sistemas (para
ser integrados como componentes de las dos aplicaciones finales)
que sean capaces de:
-
agrupar e interrelacionar los documentos;
- generar
automáticamente resúmenes de documentos o grupos de documentos;
- producir
una representación conceptual de consultas en cualquiera de
los cuatro idiomas.
- desarrollar
los recursos lingüísticos necesarios para abordar estas tareas
en coordinación con las principales competiciones científicas
mundiales en el área.
|