LSI UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA
Departamento de Lenguajes y Sistemas Informáticos
Curso de Doctorado

Curso 2006/2007

Minería de la Web
(Cód. 1101013)


Objetivos y metodología

Estructura y contenidos:
1. Introducción
2. Crawling
3. Búsqueda
4. Minería de contenido
5. Minería de uso
6. Minería de estructura
7. Dinámica de la web

Bibliografía


Ficha del Curso



OBJETIVOS Y METODOLOGÍA

El curso de doctorado consta de siete temas cuyo estudio se realiza con la siguiente metodología dentro de un paradigma de construcción de conocimiento:
  • Para cada tema, el alumno debe acceder al material propuesto por el equipo docente. Este material consta de:
    • Bibliografía básica común a todos los temas. Se trata de libros con un conocimiento ya estructurado facilitando la introducción del alumno en la materia.
    • Artículos científicos. Se propone la lectura de algunos artículos de carácter científico. Su contenido es más específico y de más difícil lectura. A partir de ellos, el alumno conocerá la estructura y formato que deben seguir los textos de estas características y que el tendrá que escribir más adelante.
    • Enlaces web: enlaces que apuntan a sitios web donde encontrar nuevas referencias bibliográficas, enlaces a sitios web con recursos y herramientas relacionados con el tema, enlaces a otros cursos o tutoriales, etc.
  • A partir de este material y con la guía de un cuestionario, el alumno debe realizar un breve resumen de 5-10 páginas sintetizando el conocimiento que ha adquirido. La elaboración del resumen se dirige a:
    • Estimular la lectura detenida del material propuesto.
    • Provocar la necesidad de buscar información que complete el material propuesto inicialmente. Esta búsqueda es un entrenamiento necesario en la formación del alumno como investigador. Con cada trabajo tendrá mayor capacidad para encontrar y discriminar fuentes de información relevantes, requisito para desarrollar cualquier trabajo de investigación posterior.
    • Estimular una reflexión sobre el material estudiado, necesaria para poder realizar una síntesis de calidad.
    • Aprender a escribir textos con un formato de artículo científico, tanto en lo referente a la estructuración de contenidos, como de formato del propio artículo.
  • Tras la elaboración del resumen, el alumno debe realizar una entrega electrónica de su resumen y de los nuevos enlaces y referencias más importantes que ha encontrado a lo largo de su trabajo. Esta entrega le da acceso a los materiales entregados por sus compañeros con relación al mismo tema. De esta manera se pretende:
    • Compartir el conocimiento adquirido, aprovechando el trabajo y el esfuerzo realizado por cada alumno.
    • Estimular la calidad de los materiales aportados puesto que van a ser leídos por terceras personas.
    • Servir de autoevaluación de conocimientos adquiridos por comparación del trabajo propio con el trabajo de sus compañeros, tanto en lo relativo a contenidos, como a estructura y redacción de los trabajos.
    • Servir de material de evaluación para el equipo docente, que podrá valorar no sólo los conocimientos adquiridos, sino también la evolución y el progreso del alumno en la adquisición de la metodología y actitud necesaria para un investigador.
Los últimos meses del curso se dirigen a afianzar los conocimientos adquiridos mediante la elaboración de un trabajo final de carácter personal. El trabajo puede ser propuesto por el propio alumno y preferiblemente deberá tener un carácter de aplicación de los conocimientos adquiridos.

ESTRUCTURA Y CONTENIDOS DEL CURSO
Tema



Palabras clave
Fecha de entrega
1. Introducción
Material
Entrega
Acceso a la comunidad
Web Mining
15 enero 2007
2. Crawling, filtrado e indexación
Material
Entrega

Acceso a la comunidad

Crawling, Recuperación de Información, agentes web
1 febrero 2007
3. Búsqueda en web
Material
Entrega

Acceso a la comunidad

Buscadores por palabras clave, jerarquías temáticas, browsing
15 febrero 2007
4. Minería de contenido de la web / Minería de texto
Material
Entrega

Acceso a la comunidad

Creación de corpus, Extracción de Información, Extracción de Terminología, Enriquecimiento de recursos léxicos
1 marzo 2007
5. Minería de uso de la web
Material
Entrega

Acceso a la comunidad

Logs, sitios web adaptativos, patrones de uso, comunidades de uso
15 marzo 2007
6. Minería de estructura de la web
Material
Entrega

Acceso a la comunidad

Redes sociales, PageRank
1 abril 2007
7. Dinámica de la web
Material
Entrega

Acceso a la comunidad

Tamaño, crecimiento, vida, idiomas, evolución
15 abril 2007
Trabajo: definición
Definición de un trabajo en uno de los temas del curso. Puede ser un desarrollo o la aplicación de una herramienta.



20 abril 2007
Trabajo: implementación
Implementación del trabajo



20 mayo 2007
Trabajo: memoria
Redacción de la memoria del trabajo



10 junio 2007


Bibliografía
 -   Mining the World Wide Web: An Information Search Approach
     G. Chang, M.J. Healey, J.A.M. McHugh, J.T.L Wang
     Kluwer Academic Publishers, 2001
 -   Mining the web: discovering knowledge from hypertext data
     Soumen Chakrabarti
     Morgan Kaufmann, 2002
 -   Web Content Mining with Java
     T. Loton
     John Wiley & Sons; 2002
 -   Programming Spiders, Bots, and Aggregators in Java
     J. Heaton
     Sybex; Book and CD-ROM edition, 2002
 -   Internet Agents
     F.C. Cheong
     New Riders publishing, Indianapolis, Indiana, 1996

Ficha del Curso
El curso se dirige a conocer las tecnologías existentes para extraer información de la web, tanto a partir de sus contenidos (recuperación de información, extracción de información, creación de recursos lingüísticos, etc.) como de su estructura y su uso.
PROFESORES: Dr. Anselmo Peñas Padilla y Dr. Fernando López Ostenero
TIPO DE CURSO: CONTENIDOS FUNDAMENTALES
NÚMERO DE CRÉDITOS: 5
HORAS LECTIVAS: 50
HORAS LECTIVAS PRESENCIALES: 2
NÚMERO MÁXIMO DE ALUMNOS: 10
CARÁCTER: Optativo
VIRTUALIZADO: No
EXIGENCIAS ESPECÍFICAS: Conocimientos avanzados de programación (preferiblemente Java), acceso a Internet, ordenador de trabajo y lectura fluida del inglés.