Uso de grafos semánticos en la generación automática de resúmenes y estudio de su aplicación en distintos dominios: biomedicina, periodismo y turismo

Abstract

En la sociedad en la que vivimos, la información se ha convertido en un bien necesario, a la vez que altamente cotizado, que nos acompaña en todas y cada una de nuestras actividades sociales, culturales y económicas cotidianas. Sin embargo, el crecimiento exponencial de la información a nuestro alcance se presenta como una amenaza a su uso efectivo para la formación de conocimiento,ya que, si bien la disponibilidad de esta información parece estar garantizada, no ocurre lo mismo con el tiempo necesario para procesarla. La Generación Automática de Resúmenes (GAR) trata, en cierta medida, de paliar los efectos negativos de la sobrecarga de información sobre la capacidad de los usuarios para obtener aquella que realmente les interesa y transformarla en conocimiento. Los resúmenes generados automáticamente pueden utilizarse como sustitutos de los documentos originales o simplemente como referencia en la selección de documentos para una lectura más profunda. Más aún, resultan de gran utilidad como paso intermedio en otras tareas de Procesamiento de Lenguaje Natural (PLN). La generación de resúmenes es una de las tareas más complejas de las encuadradas dentro de la más amplia disciplina del PLN, debido a la gran cantidad de otras tareas que implícitamente conlleva, como la detección de temas, la desambiguación léxica, la resolución de referencias, la simplificación de oraciones o la eliminación de redundancia. Si bien casi todas ellas han sido ampliamente estudiadas en la literatura, en el momento de escribir esta memoria no se conoce ningún trabajo que analice el efecto de la ambigüedad en el texto a resumir sobre la calidad de los resúmenes generados automáticamente. Es por ello que en esta tesis doctoral se presta especial atención a la resolución de ambigüedades como un paso previo a la generación del resumen. Tal y como demuestran los resultados, la ambigüedad repercute negativamente en la generación automática de resúmenes, de tal modo que es posible mejorar significativamente la calidad de los resultados mediante el uso de los algoritmos apropiados de desambiguación léxica. El trabajo se completa con tres casos de estudio en los que el método diseñado se configura y utiliza para generar distintos tipos de resúmenes de textos de diferentes dominios y con unas características de estructura y estilo muy dispares: artículos científicos de biomedicina, noticias periodísticas y páginas web de información turística. Los resúmenes generados son evaluados utilizando las métricas ROUGE y los criterios de legibilidad adoptados en las Document Understanding Conferences, y se comparan con los generados por otros sistemas automáticos y con los elaborados por seres humanos. Los resultados corroboran la adecuación del método propuesto a la tarea que nos ocupa.