Minería de Datos: Conceptos, Técnicas y Aplicaciones

Modalidades de Información

  • Estructurada
  • Texto
  • Imágenes
  • Gráficos

Representación Básica de Información

  • Texto:
    • Términos del índice del lenguaje natural.
    • Términos del índice del lenguaje controlado.
    • Ponderación a largo plazo.
  • Imágenes:
    • Píxeles sin procesar.
    • Media de color / desviación estándar.
    • Histograma de color.
  • Gráficos:
    • Matriz.
    • Selección de funciones.

Representación Avanzada de Información

  • Texto-gráficos:
    • Indexación semántica latente.
    • Factorización negativa de la matriz.
  • Tensores
  • Imágenes:
    • SIFT
    • SURF
    • HOG
  • Todos:
    • Aprendizaje Profundo.

Aprendizaje Supervisado

  • Naïve Bayes
  • Árboles de decisión
  • K Vecinos más cercanos
  • Soporte de máquinas de vectores
  • Regresión Logística

Aprendizaje No Supervisado

  • K Medias
  • Agrupación jerárquica

Medidas de Evaluación

  • Matriz de Confusión.
  • Precisión.
  • Recordar.
  • Medida F
  • AUC
  • Complejidad (Tiempo de computación).
  • Pureza.
  • Información recíproca normalizada.

Desarrollo de Proyecto

  • Problema práctico en la minería de datos.
  • Eficacia.
  • Eficiencia.

Actividad Grupal #1

Discutir lo que se entiende por Minería de Datos:

Minería de Datos

Extracción de patrones interesantes (no triviales, implícitos, previamente desconocidos, útiles y comprensibles) o conocimiento de gran cantidad de datos.

Otros Nombres para Minería de Datos

  • Análisis de datos.
  • Descubrimiento del conocimiento (KDD).
  • Extracción del conocimiento.
  • Análisis de datos / patrones.
  • Inteligencia de Negocio.

Patrón

Regularidad discernible en el mundo o en un diseño hecho por el hombre. Los elementos de un patrón se repiten de manera predecible.

Actividad de Grupo #2

Trabajo en equipo: Discutir para dar un ejemplo de patrón en el mundo o en cualquier actividad humana.

Conocimiento

Conciencia de un conjunto de información y las formas en que tal información se puede utilizar para realizar una tarea específica o tomar una decisión.

Actividad de Grupo #3

Trabajo en equipo: Discutir para dar un ejemplo de un tipo de conocimiento y cómo se utiliza para realizar una tarea, resolver un problema o tomar una decisión.

Minería de Datos: Confluencia de Múltiples Disciplinas

Cuaderno Diagrama

Actividad de Grupo 3

Trabajo en equipo: ¿Discutir para explicar por qué necesitamos la minería de datos?

¿Por qué Minería de Datos?

Estamos viviendo la era del Big Data, donde gran cantidad de datos se crean sobre una base diaria.

¿Qué tan grande es Big Data?

  • > 2000TB de datos se crean en Internet por minuto.
  • ~3PB de datos están en la base de datos de Google Earth.

¿Por qué la Minería de Datos?

Nos estamos ahogando en datos pero hambrientos de conocimiento.

  • 1.- Examinar todo el ruido caótico y repetitivo en los datos.
  • 2.- Entender lo que es relevante.
  • 3.- Tomar decisiones informadas.

Proceso General de Minería de Datos

  • Definición del problema
  • Recopilación de datos
    • Datos:
      • Acceso
      • Muestreo
      • Almacenamiento
  • Preprocesamiento de datos
    • Datos:
      • Limpieza.
      • Normalización.
      • Transformación.
  • Construcción de modelos y evaluación
  • Implementación del Conocimiento
    • Modelo aplicable.
    • Informes
    • Aplicaciones externas

Patrones (Conocimiento) a ser Extraído

  • 1.- Asociaciones frecuentes
  • 2.- Reglas (jerárquicas).
  • 3.- Funciones.
  • 4.- Clústeres

Ejemplo de Aplicación

Definición del problema: Crear un modelo (filtro) capaz de identificar si un correo electrónico es legítimo, spam o phishing.

Conceptos Básicos sobre Estadísticas

Observación

Información recopilada sobre un objeto de interés: una persona, un negocio, un partido de fútbol, un período de tiempo, etc.

Observador

Alguien que recopila información sobre el objeto observado, pero no interviene.

Parcialidad

Inclinación para presentar o mantener una perspectiva parcial, debido a muchas causas (sociales, culturales, económicas, etc.). Implica la falta de un punto de vista neutral.

Variables

Registre las mediciones en las que nos interesan las observaciones (objetos): edad, sexo, preferencia de chocolate, goles marcados, etc.

Tipos de Variables

  • Nominal: Categórica o cualitativa.
    • p.ej. Sexo, color, preferencia de chocolate.
  • Ordinal: El orden importa
    • p.ej. Rango, satisfacción
  • Intervalo: Variables que pueden medirse en lugar de clasificar: escala, cuantitativa, paramétrica.

Variables Nominales

  • Nombrados etiquetas de ingenio / nombres, pero también con códigos / índices.
  • El número no tiene un orden.

Variables Ordinales

  • Nombrados etiquetas de ingenio / nombres, pero también con códigos / índices.
  • Los números tienen un orden.

Datos Ordinales

A veces la media es útil, pero ten cuidado (no recomendado).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.