Estructura
4. Minería de contenido / Minería de texto
4.1 Lectura de artículos
4.2 Búsqueda de referencias y enlaces
4.3 Cuestionario / Resumen
4.4 Entrega
Bibliografía
|
4. Minería de contenido / Minería de texto
4.1 Lectura
de artículos
|
- Marti A. Hearst. Untangling Text Data Mining.
Proceedings of ACL'99: the 37th Annual Meeting of the Association for Computational
Linguistics, University of Maryland, June 20-26, 1999 (invited paper).
- Turmo, Jordi. Information Extraction, Multilinguality and Portability. Revista Iberoamericana de Inteligencia Artificial, N.22, vol. 5, Invierno 2003.
- Peñas, A., Verdejo, F. and Gonzalo, J. Terminology Retrieval: towards a synergy between thesaurus and free-text searching.
In F.J. Garijo, J.C. Riquelme and M. Toro editors, Advances in Artificial
Intelligence - IBERAMIA 2002, LNAI 2527, Lecture Notes in Computer Science.
Springer-Verlag, 2002.
- Bibliografía básica.
|
4.2 Búsqueda
de nuevas referencias y enlaces
|
|
4.3 Resumen
|
El resumen (5-10 páginas)
debe tener la siguiente estructura:
- Creación de corpus
- ¿Qué es un corpus?
- Posibles usos y utilidad de un corpus
- Creación de corpus a partir de la web
- Ejemplos de algunos corpus y su finalidad
- Extracción de Información textual (Automatic Information Extraction)
- Definición y objetivos
- Arquitectura de un sistema de EI
- Extracción de terminología (Automatic Terminology Extraction)
- Definición y objetivos
- Metodología
- Extracción de terminología a partir de la web
- Problemática asociada al lenguaje natural
- Similitud, clasificación, clustering
- Definición de cada uno. Semejanzas y diferencias.
- Finalidad de cada uno.
- Usos y aplicaciones
- Áreas de investigación relacionadas
- Conferencias internacionales
- Lista de referencias utilizadas.
- Lista de enlaces utilizados.
Se
recomienda explorar los enlaces sugeridos para poder dar respuesta a los
puntos del resumen.
|
4.4 Entrega
|
La entrega de:
- Resumen en formato HTML
- Lista de referencias y enlaces encontrados con breve comentario
de los mismos
se
realizará a través de la siguiente página: http://nlp.uned.es/WebMining/entrega
antes de la fecha indicada.
|
Bibliografía
- Mining the World Wide Web: An Information Search
Approach
G. Chang, M.J. Healey, J.A.M. McHugh, J.T.L Wang
Kluwer Academic Publishers, 2001
- Mining the web: discovering knowledge from
hypertext data
Soumen Chakrabarti
Morgan Kaufmann, 2002
- Web Content Mining with Java
T. Loton
John Wiley & Sons; 2002
- Programming Spiders, Bots, and Aggregators
in Java
J. Heaton
Sybex; Book and CD-ROM edition, 2002
- Internet Agents
F.C. Cheong
New Riders publishing, Indianapolis, Indiana,
1996
|