Minería de Datos M.C. Juan Carlos Olivares Rojas.

Slides:



Advertisements
Similar presentations
ALGORITMOS.
Advertisements

Gestión del riesgo ambiental De la estadística descriptiva a los modelos de simulación Sergi Simón Quintana SEA. Setembre de
TOLERANCIA A FALLAS Y RECUPERACIÓN Sistemas Distribuidos Sept-Dic 2008 Yudith Cardinale.
Definición La resolución de problemas ayuda a reducir o eliminar los pensamientos negativos que llevan a la persona a creerse incapaz de manejar una decisión,
 Gestae es una sociedad formada por un equipo multidisciplinar de profesionales de gestión financiera- bancaria y de servicios a empresas y autónomos.
MISION Somos una fuente de solución efectiva en cuanto al manejo de las TIC´S en la implementación de los procesos de gestión de talento humano basada.
Las 4F’s del Marketing Digital
Técnico de Nivel Medio en Administración
Taller de Educación Tecnológica 2004
APLICACIÓN DE LAS PILAS: BACKTRACKING
Algoritmos y programas
Evaluación economómica y financiera de proyectos Parte 3. Criterios de rentabilidad.
Copyright © 2014 by The University of Kansas Encuestas de comportamiento.
CALIDAD La calidad es una propiedad inherente de cualquier cosa que permite que esta sea comparada con cualquier otra de su misma especie.
DNS POR: YOINER ALEJANDRO BETANCUR DURANGO JHON JAIME CIRO MOSQUERA ADMON. DE REDES DE COMPUTADORES SENA “CTMA” MEDELLIN 2011.
(UN MODELO PARA CREAR EQUIPOS DE ALTO RENDIMIENTO)
FUNDAMENTOS BASICOS DE SALUD Y SEGURIDAD EN EL TRABAJO DEIBY OJEDA AMAYA ING. INDUSTRIAL – CONTADOR PUBLICO INSTRUCTOR Barranquilla, 2013.
ADMINISTRACIÓN DE REDES
FRACCIONES EQUIVALENTES operador de una cantidad
Ejercicios clase anterior
EVALUACION POR PORTAFOLIO. ¿QUE ES UN PORTAFOLIO? Una colección de documentos con ciertas características en base a un propósito.
Los Números Racionales
ANALISIS DE VENTAS.
Para otros usos de este término, véase Moda (desambiguación).
III. MÉTODO O TRADICIÓN METODOLÓGICA. PREGUNTA DE INVESTIGACIÓN Y MÉTODO Cada estrategia (MÉTODO) entrega determinada información que ilumina ciertos.
“Fructificar la razón: trascender nuestra cultura” U NIVERSIDAD DE Q UINTANA R OO Reunión de Equipo Directivo 1 “Fructificar la razón: trascender nuestra.
Es necesaria a la razón Busca la Verdad Se pregunta por el fundamento de todo lo real: LA REALIDAD RADICAL.
Presentación Censo Empresarial Censo Empresarial 2010 – Municipio de Soacha.
Somos el primer Portal empresarial del país, que a través de la Cámara de Comercio del Sur y Oriente del Tolima, ofrece un nuevo servicio para todos los.
Administración Una perspectiva global
LOS PROCESOS DE EXPRESION Y PRODUCCION ORAL FRENTE A UN PROFESIONAL COMPETENTE ALLISON JEANETH CARMONA TATIANA ANDREA MARTINEZ MARTHA LILIANA TORRES ERIKA.
PLAN DE MEJORA PRÁCTICA EMPRESARIAL
La Importancia de la Intranet en el modernismo empresarial.
Especificaciones gráficas del SIE Agosto 20 de 2014.
AUDITORIA INFORMATICA Unida I Informática Empresarial
La gestión de los recursos humanos es consubstancial al elemento de integración principal de la sociedad actual: la organización, están conformadas por.
1:no comer ni tomar líquidos en la sala de sistemas 2:si uno leva un dispositivo para almacenar y si se le pierde uno se encarga de eso 3: no abrir los.
Servidor Multimedia Marina Vergara.
PLANIFICADOR DE AMBIENTE DE APRENDIZAJE MEDIADO POR TIC Salón 86 Grupo 03 Lic. María Elizabeth Castillo Villota Lic. Nancy Jaramillo Alarcón Lic. Atalívar.
Base de Datos I – Ing. Mary Carlota Bernal J. BASE DE DATOS I Fundamentos Básicos de base de datos y de la importancia de las mismas en las organizaciones.
Cc302 – Módulo 1 Introducción a las Bases de Datos Prof. Cristian J. Valle Ronceros Bibliografía: Sistemas de bases de datos Ramez Elmasri y Shamkant B.
Equipo SCM: Fernández Norvelis. C.I: Fernández David. C.I: Instrumentación y Control IndustrialInstrumentación y Control Industrial.
Introducción a programación web Martin Esses. Una base de datos se puede definir como un conjunto de información relacionada que se encuentra agrupada.
Introducción Programación Lineal (PL) Muchas personas clasifican el desarrollo de La Programación Lineal (PL) entre los avances científicos mas importantes.
Por: Rafael L. Nieves Torres BUIN 1010 Prof. Carlos Nuñez.
UNIDAD 5 PRODUCTOS Y COCIENTES NOTABLES. MAPA DE NAVEGACIÓN Exponentes y Radicales Índice Objetivo General Ejemplos Objetivo 1 Objetivo 2 Objetivo 3 Objetivo.
1 MODELO CONCEPTUAL DE DATOS TEMA 2. 2 UD 2.- Modelo conceptual de datos 2.1 Modelo de datos 2.2 Modelo conceptual Elementos del modelo
El Contratante debe ingresar a la pagina de Coomeva Ingresar al link de Oficina Virtual de Usuarios Coomeva medicina.
NEGOCIO EN MARCHA. El negocio en marcha se comprueba o verifica, cuando el revisor fiscal o el auditor, presenta el dictamen sobre los estados financieros,
MAXIMO COMUN DIVISOR. Es el mayor de los divisores comunes a dos o mas números. Un número entero d se llama máximo común divisor (MCD) de los números.
Cree su Aplicación para Rastrear Obtener eficiencia a través de los proceso de inventario y aumentar la velocidad de los activos a través de la cadena.
ECUACIONES Y POTENCIAS 2do trimestre. Ecuaciones Para organizar mejor el procedimiento de resolver una ecuación vamos a definir dos operaciones: Reducir.
Métodos de enseñanza aprendizaje. Actividades 1.- Comparar las definiciones y clasificaciones de métodos que se ofrecen en el material. 2.- Expresar valoraciones.
ISO INTEGRANTES: Jorge Andrés Enríquez Ramírez Emily Núñez Eguis Edwin Danilo Romero Rodríguez.
Capìtulo 19 La Maximizaciòn del Beneficio. Beneficio Econòmico u Una empresa emplea los factores j = 1…,m para producir los bienes i = 1,…n. u Los volùmenes.
ENERGÍA CONCEPTOS BÁSICOS. ENERGÍA La energía es una magnitud física que asociamos con la capacidad que tiene los cuerpos para producir trabajo mecánico,
ANÁLISIS Y DISEÑO DE SISTEMAS Ing. Linda K. Masias M. Conceptos básicos sobre Requisitos.
Clasificación de los Sistemas operativos - Ubuntu - Gentoo - Fedora - Inferno - Madriva - Haiku - Debian -Windows Xp home -Windows Windows 95.
¿ QUÉ ES EL SUBPROGRAMA DE SEGURIDAD INDUSTRIAL? Es el conjunto de técnicas y actividades desarrolladas para la identificación y control de los accidentes.
Matías Leandro Ridelnik Universidad de Palermo, Facultad de Ingeniería Carlos Daniel Martínez –TUTOR.
WP6-OCDE Modificaciones a las Guías de Precios de Transferencia OCDE 2010 Noviembre 2010.
MAPAS DE PROGRESO DEL APRENDIZAJE: LA PROPUESTA NACIONAL DE ESTÁNDARES DE APRENDIZAJE.
Elba Morales Montañez ENFE 3040 Prof. Karilyn Morales
SISTEMAS DE NUMERACIÓN Facultad de Ingeniería.  Conjunto de símbolos y reglas que permiten representar datos numéricos. Sistema de numeración posicional:
1 Las mujeres y la economía. María Luisa Moltó CALCULO TRABAJO NO REMUNERADO.
NORMAS DE SEGURIDAD INDUSTRIAL ( ISO OSHAS ) Realizado por: Jhonatan Paul Chacaltana Quispe.
Mapas Conceptuales. Introducción "Un mapa conceptual es un recurso esquemático para presentar un conjunto de significados conceptuales incluidos en una.
TEMA DESARROLLOEVALUACIONBIBLIOGRFIA AGRADECIMIENTOS PROPOSITO E.DIAGNOSTICA EJERCICIO 1 ESQUEMA DEFINICION EJERCICIO 2 COLEGIO DE BACHILLERES PLANTEL:
Intervalos de Confianza Inferencia Estadística. Intervalos de Confianza Métodos de estimación: Estimación puntual: utilización de datos de la muestra.
Análisis, Diseño e Implementación de Bases de Datos Análisis, Diseño e Implementación de Bases de Datos Conceptos Generales.
Presentation transcript:

Minería de Datos M.C. Juan Carlos Olivares Rojas

Agenda Introducción El proceso de extracción del conocimiento Algoritmos utilizados en el proceso de minería de datos Ejemplos

Introducción Se define como un análisis de datos exploratorio. El propósito es buscar patrones interesantes en los datos. Se aplican muchas técnicas estadísticas para buscar estos patrones. Se pretende buscar reglas de asociación entre las dimensiones de una tabla.

Introducción Al conjunto de todas las transacciones se le llama población. Cualquier regla de asociación tiene un nivel de soporte y uno de confianza. Soporte es el fragmento de la población que satisface la regla.

Introducción El soporte es la fracción de la población, en la cual se cumple el antecedente, también se cumple el consecuente. Se pueden encontrar en otro tipo de patrones: “Si un cliente compra zapatos es probable que compre calcetines no necesariamente en la misma transacción”.

El proceso de extracción del conocimiento Para la extracción del conocimiento se tiene que hacer un preprocesado de los datos. Generalmente dicho preprocesamiento contiene un filtro de información, es decir, sólo se tienen los campos y datos para nuestro almacén de datos. Este es un proceso único dependiente del problema a resolver.

Algoritmos utilizados en el proceso de minería de datos Existen una gran infinidad de algoritmos generalmente clasificados en dos tipos: estadístico y probabilísticos. Los estadísticos funcionan con los datos de nuestra tabla de hechos y deben devolver un resultado expresado en probabilidad o no obtenible mediante expresiones SQL básicas.

Algoritmos utilizados en el proceso de minería de datos El algoritmo mejor conocido es el de reglas de asociación que encuentra dependencia entre elementos, pero existen otros algoritmos como los de agrupamiento (clustering) como los vecinos más cercanos o k-means que encuentran relaciones entre grupos de objetos con ciertas afinidades.

Algoritmos utilizados en el proceso de minería de datos Los algoritmos probabilísticos se encuentran con técnicas en la mayoría de los casos más avanzadas, como son las redes bayesianas, las máquinas de soporte vectorial entre otros. Los resultados de la minería de datos pueden diferir según la técnica empleada aunque los datos sean los mismos.

Weblog Mining La Minería Web es simplemente aprovechar las técnicas de Minería de Datos para obtener conocimiento de la información disponible en Internet. Algunas áreas de aplicación: Mejorar el diseño de la estructura de un sitio Web.

Weblog Mining Planear campañas de marketing orientadas al comercio electrónico. Mejorar sistemas, ya sea en la calidad del desempeño o la seguridad. Identificar patrones de acceso a recursos Web con el objetivo de seleccionar archivos para el acaparamiento en dispositivos inalámbricos.

Weblog Mining Desconexión Internet Dispositivo Móvil Punto Acceso Servidor

Weblog Mining Computadora Cliente Bitácoras a nivel de cliente Modem Proveedor de Servicios De InterneServidor Web Bitácora a nivel de servidor Web Contenido del Servidor Web “Internet” Línea Telefónica Bitácora a nivel de Proxy Bitácora a nivel de contenido

Weblog Mining Minería Web Minería de estructura Web Inteligencia de negociosModificación de sitiosMejora de sistemasCaracterización de uso Personalización Minería de uso Web Minería de contenido Web SpeedTracer Shahabi SiteHelper Letizia Web Watcher WebPersonalizer Rexford Schechter Aggarwal PageGatherSurfAid Buchner Tuhzilin WebLogMiner Pitkow Arlitt WM Cenidet WUM WebSIFT

Weblog Mining Logs de Proxy y servidor Web Identificación de sesiones y usuarios Reglas, ítems frecuentes, patrones Conocimiento Interesante Pre-procesamiento Descubrimiento de Patrones Análisis de Patrones

Weblog Mining Identificación del formato de la bitácora Limpieza de bitácoras Fase 1. Recolección y Pre-procesamiento Recolección de archivos log Base de Datos Repositorio Fase 2. Identificación de Sesiones Identificación de sesiones Fase 3. Minería de Datos Fase 4. Recolección de estructuras Fase 5. Análisis gráfico de los resultados Fase 6. Aplicación del conocimiento

Weblog Mining Una vez que se tienen objetos minables, la gama de métodos para descubrir patrones va desde el simple análisis estadístico hasta métodos complejos como algoritmos de minería de datos. Para este trabajo se implementó el algoritmo de minería de reglas de asociación A-priori e ítems frecuentes.

Weblog Mining

Esquema de almacenamiento de bitácoras Esquema de almacenamiento de reglas

Weblog Mining Carga de estructuras de sitios Web Un grafo recortado Estructura de un sitio Web

Weblog Mining MétodoReglaSoporteConfianza 10 Minutos[/subaca/electron/index.html]--->[/index.html]8.92%86.69% 15 Minutos[/subaca/electron/index.html]--->[/index.html]9.51%88.56% Heurística[/subaca/web-dcc/index.html]--->[/index.html]11.24%85.07% 15 Peticiones[/subaca/electron/index.html]--->[/index.html]9.03%86.19% cenidet.edu.mx Agosto 2004

Clustering NombreProteínaVitaminaGrasaAzúcarMineral Hamburguesa Papas Refresco Helado Malteada

Clustering d(y i, C j ) = (y i - C j ) T (y i - C j ) = ∑ d l=1 (y li – C lj ) 2 d(y 1 – c 1 ) = (y 1 – c 1 ) T (y 1 – c 1 ) = ∑ 2 l=1 (y l1,c l1 ) = (y 11 – C 11 ) 2 + (y 21 – C 21 ) 2

Referencias Date C. (2001), “Introducción a los sistemas de base de datos”, 7a. Edición, Pearson educación, México, 2001, ISBN: , pp Hernández, G. (2005) “Generador de patrones de navegación de usuario aplicando Web Log Mining en cliente/servidor”, Tesis de Maestría, CENIDET 2005.

Referencias Olivares, J. y Ponce I. (2005). Programación del algoritmo de agrupamiento K-means en SQL. CENIDET Laboratorio de Sistemas Distribuidos.

¿Preguntas, dudas y comentarios?