Modalidades de Información
- Estructurada
- Texto
- Imágenes
- Gráficos
Representación Básica de Información
- Texto:
- Términos del índice del lenguaje natural.
- Términos del índice del lenguaje controlado.
- Ponderación a largo plazo.
- Imágenes:
- Píxeles sin procesar.
- Media de color / desviación estándar.
- Histograma de color.
- Gráficos:
- Matriz.
- Selección de funciones.
Representación Avanzada de Información
- Texto-gráficos:
- Indexación semántica latente.
- Factorización negativa de la matriz.
- Tensores
- Imágenes:
- SIFT
- SURF
- HOG
- Todos:
- Aprendizaje Profundo.
Aprendizaje Supervisado
- Naïve Bayes
- Árboles de decisión
- K Vecinos más cercanos
- Soporte de máquinas de vectores
- Regresión Logística
Aprendizaje No Supervisado
- K Medias
- Agrupación jerárquica
Medidas de Evaluación
- Matriz de Confusión.
- Precisión.
- Recordar.
- Medida F
- AUC
- Complejidad (Tiempo de computación).
- Pureza.
- Información recíproca normalizada.
Desarrollo de Proyecto
- Problema práctico en la minería de datos.
- Eficacia.
- Eficiencia.
Actividad Grupal #1
Discutir lo que se entiende por Minería de Datos:
Minería de Datos
Extracción de patrones interesantes (no triviales, implícitos, previamente desconocidos, útiles y comprensibles) o conocimiento de gran cantidad de datos.
Otros Nombres para Minería de Datos
- Análisis de datos.
- Descubrimiento del conocimiento (KDD).
- Extracción del conocimiento.
- Análisis de datos / patrones.
- Inteligencia de Negocio.
Patrón
Regularidad discernible en el mundo o en un diseño hecho por el hombre. Los elementos de un patrón se repiten de manera predecible.
Actividad de Grupo #2
Trabajo en equipo: Discutir para dar un ejemplo de patrón en el mundo o en cualquier actividad humana.
Conocimiento
Conciencia de un conjunto de información y las formas en que tal información se puede utilizar para realizar una tarea específica o tomar una decisión.
Actividad de Grupo #3
Trabajo en equipo: Discutir para dar un ejemplo de un tipo de conocimiento y cómo se utiliza para realizar una tarea, resolver un problema o tomar una decisión.
Minería de Datos: Confluencia de Múltiples Disciplinas
Cuaderno Diagrama
Actividad de Grupo 3
Trabajo en equipo: ¿Discutir para explicar por qué necesitamos la minería de datos?
¿Por qué Minería de Datos?
Estamos viviendo la era del Big Data, donde gran cantidad de datos se crean sobre una base diaria.
¿Qué tan grande es Big Data?
- > 2000TB de datos se crean en Internet por minuto.
- ~3PB de datos están en la base de datos de Google Earth.
¿Por qué la Minería de Datos?
Nos estamos ahogando en datos pero hambrientos de conocimiento.
- 1.- Examinar todo el ruido caótico y repetitivo en los datos.
- 2.- Entender lo que es relevante.
- 3.- Tomar decisiones informadas.
Proceso General de Minería de Datos
- Definición del problema
- Recopilación de datos
- Datos:
- Acceso
- Muestreo
- Almacenamiento
- Datos:
- Preprocesamiento de datos
- Datos:
- Limpieza.
- Normalización.
- Transformación.
- Datos:
- Construcción de modelos y evaluación
- Implementación del Conocimiento
- Modelo aplicable.
- Informes
- Aplicaciones externas
Patrones (Conocimiento) a ser Extraído
- 1.- Asociaciones frecuentes
- 2.- Reglas (jerárquicas).
- 3.- Funciones.
- 4.- Clústeres
Ejemplo de Aplicación
Definición del problema: Crear un modelo (filtro) capaz de identificar si un correo electrónico es legítimo, spam o phishing.
Conceptos Básicos sobre Estadísticas
Observación
Información recopilada sobre un objeto de interés: una persona, un negocio, un partido de fútbol, un período de tiempo, etc.
Observador
Alguien que recopila información sobre el objeto observado, pero no interviene.
Parcialidad
Inclinación para presentar o mantener una perspectiva parcial, debido a muchas causas (sociales, culturales, económicas, etc.). Implica la falta de un punto de vista neutral.
Variables
Registre las mediciones en las que nos interesan las observaciones (objetos): edad, sexo, preferencia de chocolate, goles marcados, etc.
Tipos de Variables
- Nominal: Categórica o cualitativa.
- p.ej. Sexo, color, preferencia de chocolate.
- Ordinal: El orden importa
- p.ej. Rango, satisfacción
- Intervalo: Variables que pueden medirse en lugar de clasificar: escala, cuantitativa, paramétrica.
Variables Nominales
- Nombrados etiquetas de ingenio / nombres, pero también con códigos / índices.
- El número no tiene un orden.
Variables Ordinales
- Nombrados etiquetas de ingenio / nombres, pero también con códigos / índices.
- Los números tienen un orden.
Datos Ordinales
A veces la media es útil, pero ten cuidado (no recomendado).