LSI UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA
Departamento de Lenguajes y Sistemas Informáticos
Curso de Doctorado

Minería de la Web



Estructura
2. Crawling

2.1 Lectura de artículos

2.2 Búsqueda de referencias y enlaces

2.3 Cuestionario / Resumen

2.4 Entrega

 

Bibliografía




2. Crawling
2.1 Lectura de artículos
2.2 Búsqueda de nuevas referencias y enlaces
2.3 Resumen
El resumen (5-10 páginas) debe tener la siguiente estructura:
  1. Qué es un crawler.
  2. Problemas que intenta resolver un crawler.
  3. Problemas con los que se encuentra un crawler (técnicos, legales, etc.)
  4. Etapas del crawling. (Enumeración y descripción lo más exhaustiva posible)
  5. Qué otras áreas de investigación están relacionadas con el Crawling.
  6. En qué conferencias internacionales se aborda el crawling.
  7. Lista de referencias utilizadas.
  8. Lista de enlaces utilizados.
Se recomienda explorar los enlaces sugeridos para poder dar respuesta a los puntos del resumen.
2.4 Entrega
La entrega de:
  • Resumen en formato HTML
  • Lista de referencias y enlaces encontrados con breve comentario de los mismos
se realizará a través de la siguiente página: http://nlp.uned.es/WebMining/entrega
antes de la fecha indicada.


Bibliografía
 -   Mining the World Wide Web: An Information Search Approach
     G. Chang, M.J. Healey, J.A.M. McHugh, J.T.L Wang
     Kluwer Academic Publishers, 2001
 -   Mining the web: discovering knowledge from hypertext data
     Soumen Chakrabarti
     Morgan Kaufmann, 2002
 -   Web Content Mining with Java
     T. Loton
     John Wiley & Sons; 2002
 -   Programming Spiders, Bots, and Aggregators in Java
     J. Heaton
     Sybex; Book and CD-ROM edition, 2002
 -   Internet Agents
     F.C. Cheong
     New Riders publishing, Indianapolis, Indiana, 1996