Generación automática de resúmenes con apoyo en ontologías aplicada al dominio Biomédico

Abstract

En esta memoria de tesis se propone una arquitectura para la generación de resúmenes informativos monodocumento en un dominio específico: la biomedicina. La utilidad de estos resúmenes es indudable, en un campo en el que los profesionales han de estar continuamente al corriente de los nuevos avances científicos, pero a la vez necesitan economizar el tiempo que dedican a su formación. A lo largo de la exposición, se presenta un método de extracción de oraciones, basado en la teoría de redes complejas, que realiza un mapeo del texto a los conceptos de la ontología UMLS, y representa el documento y las oraciones como grafos. La selección de las oraciones se realiza a partir del grado de conexión de sus conceptos en el grafo del documento, utilizando para ello un algoritmo de agrupamiento basado en la conectividad. Se desarrolla un sistema que implementa el método propuesto y se muestran los resultados empíricos de la aplicación de distintas heurísticas para la selección de las oraciones del resumen. Se realiza una evaluación formal del sistema y se compara con otros que resuelven tareas similares. Los resultados de esta evaluación demuestran que la propuesta es útil para la creación de resúmenes muy similares en contenido a los creados por humanos. Finalmente, se identifican algunos problemas y líneas de trabajo futuras. [ABSTRACT] In this thesis, a new approach to biomedical text Summarization is presented. In recent years, the amount of online information has increased explosively. But as time is precious, efficient access to data has become necessary. This is especially crucial for physicians and biomedical researchers, since they have to consult constantly up-to-date and heterogeneous information according to their needs. In order to tackle this overload of information, text summarization can undoubtedly play a role. We introduce an ontology-based extractive method for summarization. It is based on mapping the text to concepts in the ontology and representing the document and its sentences as graphs. To assess the importance of the sentences in the document, we compute the centrality of their concepts in the document graph. We have applied our approach to summarize scientific biomedical literature, taking advantages from free resources as UMLS. Empirical results and conclusions are presented. We also evaluate generated summaries using existing metrics and confirm that our methodology is promising. Finally, pending problems and future work are identified.