Minería de Datos M.C. Juan Carlos Olivares Rojas
Agenda Introducción El proceso de extracción del conocimiento Algoritmos utilizados en el proceso de minería de datos Ejemplos
Introducción Se define como un análisis de datos exploratorio. El propósito es buscar patrones interesantes en los datos. Se aplican muchas técnicas estadísticas para buscar estos patrones. Se pretende buscar reglas de asociación entre las dimensiones de una tabla.
Introducción Al conjunto de todas las transacciones se le llama población. Cualquier regla de asociación tiene un nivel de soporte y uno de confianza. Soporte es el fragmento de la población que satisface la regla.
Introducción El soporte es la fracción de la población, en la cual se cumple el antecedente, también se cumple el consecuente. Se pueden encontrar en otro tipo de patrones: “Si un cliente compra zapatos es probable que compre calcetines no necesariamente en la misma transacción”.
El proceso de extracción del conocimiento Para la extracción del conocimiento se tiene que hacer un preprocesado de los datos. Generalmente dicho preprocesamiento contiene un filtro de información, es decir, sólo se tienen los campos y datos para nuestro almacén de datos. Este es un proceso único dependiente del problema a resolver.
Algoritmos utilizados en el proceso de minería de datos Existen una gran infinidad de algoritmos generalmente clasificados en dos tipos: estadístico y probabilísticos. Los estadísticos funcionan con los datos de nuestra tabla de hechos y deben devolver un resultado expresado en probabilidad o no obtenible mediante expresiones SQL básicas.
Algoritmos utilizados en el proceso de minería de datos El algoritmo mejor conocido es el de reglas de asociación que encuentra dependencia entre elementos, pero existen otros algoritmos como los de agrupamiento (clustering) como los vecinos más cercanos o k-means que encuentran relaciones entre grupos de objetos con ciertas afinidades.
Algoritmos utilizados en el proceso de minería de datos Los algoritmos probabilísticos se encuentran con técnicas en la mayoría de los casos más avanzadas, como son las redes bayesianas, las máquinas de soporte vectorial entre otros. Los resultados de la minería de datos pueden diferir según la técnica empleada aunque los datos sean los mismos.
Weblog Mining La Minería Web es simplemente aprovechar las técnicas de Minería de Datos para obtener conocimiento de la información disponible en Internet. Algunas áreas de aplicación: Mejorar el diseño de la estructura de un sitio Web.
Weblog Mining Planear campañas de marketing orientadas al comercio electrónico. Mejorar sistemas, ya sea en la calidad del desempeño o la seguridad. Identificar patrones de acceso a recursos Web con el objetivo de seleccionar archivos para el acaparamiento en dispositivos inalámbricos.
Weblog Mining Desconexión Internet Dispositivo Móvil Punto Acceso Servidor
Weblog Mining Computadora Cliente Bitácoras a nivel de cliente Modem Proveedor de Servicios De InterneServidor Web Bitácora a nivel de servidor Web Contenido del Servidor Web “Internet” Línea Telefónica Bitácora a nivel de Proxy Bitácora a nivel de contenido
Weblog Mining Minería Web Minería de estructura Web Inteligencia de negociosModificación de sitiosMejora de sistemasCaracterización de uso Personalización Minería de uso Web Minería de contenido Web SpeedTracer Shahabi SiteHelper Letizia Web Watcher WebPersonalizer Rexford Schechter Aggarwal PageGatherSurfAid Buchner Tuhzilin WebLogMiner Pitkow Arlitt WM Cenidet WUM WebSIFT
Weblog Mining Logs de Proxy y servidor Web Identificación de sesiones y usuarios Reglas, ítems frecuentes, patrones Conocimiento Interesante Pre-procesamiento Descubrimiento de Patrones Análisis de Patrones
Weblog Mining Identificación del formato de la bitácora Limpieza de bitácoras Fase 1. Recolección y Pre-procesamiento Recolección de archivos log Base de Datos Repositorio Fase 2. Identificación de Sesiones Identificación de sesiones Fase 3. Minería de Datos Fase 4. Recolección de estructuras Fase 5. Análisis gráfico de los resultados Fase 6. Aplicación del conocimiento
Weblog Mining Una vez que se tienen objetos minables, la gama de métodos para descubrir patrones va desde el simple análisis estadístico hasta métodos complejos como algoritmos de minería de datos. Para este trabajo se implementó el algoritmo de minería de reglas de asociación A-priori e ítems frecuentes.
Weblog Mining
Esquema de almacenamiento de bitácoras Esquema de almacenamiento de reglas
Weblog Mining Carga de estructuras de sitios Web Un grafo recortado Estructura de un sitio Web
Weblog Mining MétodoReglaSoporteConfianza 10 Minutos[/subaca/electron/index.html]--->[/index.html]8.92%86.69% 15 Minutos[/subaca/electron/index.html]--->[/index.html]9.51%88.56% Heurística[/subaca/web-dcc/index.html]--->[/index.html]11.24%85.07% 15 Peticiones[/subaca/electron/index.html]--->[/index.html]9.03%86.19% cenidet.edu.mx Agosto 2004
Clustering NombreProteínaVitaminaGrasaAzúcarMineral Hamburguesa Papas Refresco Helado Malteada
Clustering d(y i, C j ) = (y i - C j ) T (y i - C j ) = ∑ d l=1 (y li – C lj ) 2 d(y 1 – c 1 ) = (y 1 – c 1 ) T (y 1 – c 1 ) = ∑ 2 l=1 (y l1,c l1 ) = (y 11 – C 11 ) 2 + (y 21 – C 21 ) 2
Referencias Date C. (2001), “Introducción a los sistemas de base de datos”, 7a. Edición, Pearson educación, México, 2001, ISBN: , pp Hernández, G. (2005) “Generador de patrones de navegación de usuario aplicando Web Log Mining en cliente/servidor”, Tesis de Maestría, CENIDET 2005.
Referencias Olivares, J. y Ponce I. (2005). Programación del algoritmo de agrupamiento K-means en SQL. CENIDET Laboratorio de Sistemas Distribuidos.
¿Preguntas, dudas y comentarios?