Hermes

Objetivos:

El objetivo del proyecto es adaptar y aplicar las tecnologías de la lengua en cuatro idiomas - castellano, catalán, euskera e inglés - para mejorar las tecnologías de acceso a información textual en librerías digitales, Internet, Intranets documentales, hemerotecas, etc.

Ese objetivo se realizará en dos fases:

  • se trabajará sobre recursos y algoritmos básicos de tecnologías de la lengua que pueden ser utilizados para mejorar el acceso a información textual multilingüe.
  • se construirán dos aplicaciones de acceso a información multilingüe:

    - un entorno de catalogación y consulta para una hemeroteca virtual de publicaciones digitales en los cuatro idiomas,
    - un buscador de noticias en Internet capaz de interrelacionar búsquedas en cualquiera de esos idiomas.

Ambas aplicaciones comparten dos retos tecnológicos:

  • el primero, superar las técnicas de recuperación de información basadas en comparaciones literales de los términos de búsqueda, aproximando la expresión de las consultas a lo que realmente desea el usuario.
  • el segundo, ser capaces de relacionar documentos y consultas con independencia del idioma en que unos y otros fueron formulados originalmente.

Para resolver estos retos se plantean una serie de objetivos intermedios:

  • conseguir mejoras sustanciales en el estado del arte en el área de resolución de la ambigüedad léxica.
  •  desarrollar técnicas robustas que permitan, para un documento en cualquiera de los cuatro idiomas contemplados:
  • - identificar el idioma;
    - identificar expresiones multipalabra y terminológicas;
    - reconocer y clasificar entidades, y resolver correferencias entre ellas.

  • desarrollar sistemas (para ser integrados como componentes de las dos aplicaciones finales) que sean capaces de:
  • - agrupar e interrelacionar los documentos;
    - generar automáticamente resúmenes de documentos o grupos de documentos;
    - producir una representación conceptual de consultas en cualquiera de los cuatro idiomas.

  • desarrollar los recursos lingüísticos necesarios para abordar estas tareas en coordinación con las principales competiciones científicas mundiales en el área.