LSI UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA
Departamento de Lenguajes y Sistemas Informáticos
Curso de Doctorado

Minería de la Web



Estructura
4. Minería de contenido / Minería de texto

4.1 Lectura de artículos

4.2 Búsqueda de referencias y enlaces

4.3 Cuestionario / Resumen

4.4 Entrega

 

Bibliografía




4. Minería de contenido / Minería de texto
4.1 Lectura de artículos
4.2 Búsqueda de nuevas referencias y enlaces
4.3 Resumen
El resumen (5-10 páginas) debe tener la siguiente estructura:
  1. Creación de corpus
    1. ¿Qué es un corpus?
    2. Posibles usos y utilidad de un corpus
    3. Creación de corpus a partir de la web
    4. Ejemplos de algunos corpus y su finalidad
  2. Extracción de Información textual (Automatic Information Extraction)
    1. Definición y objetivos
    2. Arquitectura de un sistema de EI
  3. Extracción de terminología (Automatic Terminology Extraction)
    1. Definición y objetivos
    2. Metodología
    3. Extracción de terminología a partir de la web
    4. Problemática asociada al lenguaje natural
  4. Similitud, clasificación, clustering
    1. Definición de cada uno. Semejanzas y diferencias.
    2. Finalidad de cada uno.
    3. Usos y aplicaciones
  5. Áreas de investigación relacionadas 
  6. Conferencias internacionales 
  7. Lista de referencias utilizadas.
  8. Lista de enlaces utilizados.
Se recomienda explorar los enlaces sugeridos para poder dar respuesta a los puntos del resumen.
4.4 Entrega
La entrega de:
  • Resumen en formato HTML
  • Lista de referencias y enlaces encontrados con breve comentario de los mismos
se realizará a través de la siguiente página: http://nlp.uned.es/WebMining/entrega
antes de la fecha indicada.


Bibliografía
 -   Mining the World Wide Web: An Information Search Approach
     G. Chang, M.J. Healey, J.A.M. McHugh, J.T.L Wang
     Kluwer Academic Publishers, 2001
 -   Mining the web: discovering knowledge from hypertext data
     Soumen Chakrabarti
     Morgan Kaufmann, 2002
 -   Web Content Mining with Java
     T. Loton
     John Wiley & Sons; 2002
 -   Programming Spiders, Bots, and Aggregators in Java
     J. Heaton
     Sybex; Book and CD-ROM edition, 2002
 -   Internet Agents
     F.C. Cheong
     New Riders publishing, Indianapolis, Indiana, 1996