Guía Completa de Conceptos y Técnicas de Ciencia de Datos

Fases del Proceso KDD

Selección

  • Selecciona todo el conjunto de datos o una muestra representativa para el proceso de descubrimiento.
  • Varía según los objetivos del negocio.

Procesamiento

  • Analiza la calidad de los datos.
  • Aplica operaciones básicas como eliminación de datos ruidosos.
  • Maneja datos desconocidos (faltantes, vacíos), nulos, duplicados y técnicas de reemplazo.

Transformación

  • Busca características útiles para representar los datos según la meta del proceso.
  • Utiliza métodos de reducción de dimensiones o transformación para disminuir el número de variables.

Data Mining

  • Descubrimiento de patrones insospechados e interesantes mediante la clasificación.

Interpretación

  • Interpreta los patrones descubiertos.

Diferencias entre Bases de Datos Relacionales y No Relacionales

Bases de Datos Relacionales

  • Organizan la información en trozos pequeños relacionados mediante identificadores.
  • Propiedades ACID (Atomicidad, Consistencia, Aislamiento, Durabilidad) las hacen más robustas y menos propensas a fallos.
  • Utilizan SQL.

Bases de Datos No Relacionales

  • No tienen identificadores que relacionen conjuntos de datos.
  • No tienen un esquema predefinido para el almacenamiento de datos.
  • Utilizan NoSQL.

Propiedades ACID de las Bases de Datos

Atomicidad

  • Una transacción debe completarse por completo o no realizarse en absoluto.

Consistencia

  • El sistema puede iniciar operaciones que concluirán.

Aislamiento

  • Una operación no debe afectar a otras, ya que las transacciones deben ejecutarse de forma aislada, independientemente de si se realizan simultáneamente.

Durabilidad

  • La capacidad de persistir y no ser descartadas si el sistema falla.

Tipos de Bases de Datos NoSQL y Características de las Bases de Datos Documentales

Tipos de Bases de Datos NoSQL

  • Sistemas de almacenamiento de información que no cumplen con el esquema entidad-relación.
  • No almacenan datos en forma de tabla, sino que utilizan otros formatos.
  • No permiten operaciones JOIN.
  • Arquitectura distribuida.

Bases de Datos Documentales

  • Almacenan información en registros (PDF, XML, YAML).

Diferencia entre Distancia Euclidiana y Distancia del Coseno

Distancia Euclidiana

  • Mide la distancia absoluta de cada punto en el espacio y está directamente relacionada con las coordenadas de posición de cada punto.

Distancia del Coseno

  • Mide el ángulo del vector espacial, que se refleja más en la diferencia de dirección.

Métodos de Filtro para la Selección de Características

Correlación de Pearson

  • Mide la dependencia lineal entre dos variables continuas X e Y, con valores de -1 a +1.

Análisis Discriminante Lineal (LDA)

  • Encuentra una combinación lineal de características que separa dos o más clases de una variable categórica.

Análisis de Varianza (ANOVA)

  • Prueba estadística para determinar si las medias de varios grupos son iguales o no.

Baja Varianza

  • Selecciona variables que superen una varianza mínima.

Métodos de Envoltura para la Selección de Características

Selección Hacia Delante

  • Introduce variables secuencialmente en el modelo por orden de correlación.

Eliminación Hacia Atrás

  • Introduce todas las variables en la ecuación y luego las excluye.

Híbrido

  • Combina los métodos anteriores.

Diferencias entre Métodos de Filtro y Envoltura

  • Los métodos de filtro no incorporan un modelo de aprendizaje automático para determinar la importancia de las características, mientras que los métodos de envoltura sí lo hacen.
  • El uso de métodos de envoltura puede provocar un sobreajuste en el modelo final de aprendizaje automático.

Técnica Principal para Reducir la Dimensionalidad de los Datos

Análisis de Componentes Principales (PCA)

  • Realiza un mapeo lineal de los datos a un espacio de menor dimensión, maximizando la varianza de los datos en la representación de pocas dimensiones.

Diferencias entre Aprendizaje Supervisado y No Supervisado

Aprendizaje Supervisado

  • Existen datos con etiquetas.
  • Se utilizan para entrenar un modelo que explique esas etiquetas.
  • Se aplica el modelo para obtener la respuesta sobre datos nuevos.

Aprendizaje No Supervisado

  • No existen datos con etiquetas.
  • Se ponen los datos en el algoritmo esperando que adquiera sentido el resultado.

Métricas de Evaluación de Modelos de Regresión

Error Medio Absoluto (MAE)

  • Media del valor absoluto de los errores.

Error Cuadrático Medio (MSE)

  • Media de los errores al cuadrado.

Raíz Cuadrada del Error Cuadrático Medio (RMSE)

  • Raíz cuadrada de la medida anterior.

R2

  • Mide la precisión del modelo, indicando qué tan cerca están los valores de los datos de la línea de regresión ajustada.

Métricas de Evaluación de Modelos de Clasificación

Matriz de Confusión

  • Herramienta para evaluar la precisión del algoritmo.

Precisión

  • Mide el número de calificaciones positivas correctas realizadas.

Exactitud

  • Mide las predicciones que el modelo ha clasificado correctamente.

Sensibilidad (Recall)

  • Mide la proporción del número de calificaciones positivas identificadas correctamente.

F1-Score

  • Combina las medidas de precisión y sensibilidad en un solo valor.

ROC

  • Indica qué tan bien puede distinguir el modelo entre dos clases.

AUC

  • Área bajo la curva ROC, que proporciona una idea del rendimiento del modelo.

Técnicas para Evitar el Sobreentrenamiento (Overfitting)

Regularización

  • Añade penalizaciones a la función de coste para evitar el sobreentrenamiento (Lasso y Ridge).

Validación Cruzada

Técnicas de Balanceo de Datos en Problemas de Clasificación

Undersampling

  • Selecciona un porcentaje de muestras de la clase mayoritaria.

Oversampling

  • Duplica un porcentaje de muestras de la clase minoritaria.

Modelo K-means

  • Algoritmo de clasificación no supervisado que agrupa objetos en k grupos según sus características.
  • Minimiza la suma de distancias entre cada objeto y el centroide de su grupo.

Clustering Jerárquico

Tipo Aglomerativo

  • Agrupa objetos en una jerarquía, fusionando los dos grupos más cercanos en cada paso.

Medidas de Distancia entre Clusters

  • Conexión completa
  • Conexión simple
  • Distancia entre medias
  • Distancia promedio entre pares

Tipos de Modelos de Datos

Jerárquico

  • Estructura de árbol con un único elemento raíz.

Relacional

  • Organiza datos en tablas con filas y columnas. Utiliza SQL.

De Red

  • Basado en el modelo jerárquico, pero permite relaciones de muchos a muchos.

Orientado a Objetos

  • Colección de objetos reutilizables con funciones y métodos relacionados.

Operaciones CRUD en Bases de Datos

Create

  • Crea un registro.

Read

  • Lee un registro.

Update

  • Actualiza un registro.

Delete

  • Borra un registro.

Características de las Bases de Datos de Documentos

  • Almacenan información en registros autónomos.
  • Asignan un identificador único a cada documento.

DBSCAN

  • Algoritmo de agrupamiento espacial basado en densidad de aplicaciones con ruido.
  • Identifica clusters de cualquier forma en conjuntos de datos con ruido y valores atípicos.

Diferencia entre Bases de Datos NoSQL y SQL

Estructura de Almacenamiento

: Las bases de datos SQL utilizan tablas relacionales, mientras que las bases de datos NoSQL pueden utilizar diferentes formatos como documentos, grafos,

columnas o pares clave-valor.

– Esquema: Las bases de datos SQL tienen un esquema rigido y predefinido, mientras que las bases de datos NoSQL generalmente tienen un esquema flexible o sin esquema, lo que permite una mayor flexibilidad en la estructura de los datos almacenados.

20. Dime un ejemplo de tipo de datos no estructurados:

– Datos de navegacion. – Imagenes. – Grabaciones de voz. – Paginas web.-No tienen una estructura fija, y pueden tener diferentes longitudes.-Datos de navegacion, imagenes, grabaciones de voz, paginas web…-Se suelen almacenar en ficheros .parquet, .json, o en bases de datos NoSQL

(MongoDB, Casandra, etc).;ESTRUCTURADOS:-almacenan tipo tabla.-Cada columna variable y cada fila observacion.-Se suelen almacenar en ficheros .xls.txt, o bases de datosrelacionales.

21. Qué es spark y cómo funciona:

– Apache Spark es una plataforma de procesamiento de datos distribuida de codigo abierto disenada para procesar grandes cantidades de datos en paralelo en un cluster de ordenadores.- Es conocido por su velocidad y capacidad de procesamiento de memoria.- Como funciona: 1. Master: se refiere al drive en apache spark, es el proceso principal puesto que controla toda la aplicacion y ejecuta el sparkcontext.2. Workers: se encarga de ejecutar los procesos de los ejecutores. El proceso en el que realizan la carga de trabajo, de manera que obtienen sus tareas que han sido repartidas desde el driver.

22. Diferencia entre, Hadoop, spark y mapreduce

– Uno trabaja en disco y otro en memoria.

23. Que es un RDD:

-Es una abstraccion de datos inmutable y distribuida que permite el procesamiento eficiente de datos a traves de los nodos workers.-modelo de programacion de RDD (Resilient Distributed Datasets).-Caracteristicas: inmutables, distribuidas, resilientes.

24. Ciclo de vida del RDD:

1. Transformaciones: se ejecutan en modo “lazy”, es decir apache spark no comenzara a ejecutarse hasta que se muestre o lance una accion. Estas transformaciones se ejecutan en los workers. operaciones y transformaciones.2. acciones: provocan el procesamiento de datos. De manera que, cuando se ejecuta una accion, se aplican todas las transformaciones planificadas y finalmente la accion. Mostrar los resultados porpantalla, guardar los datos en HDFS son acciones.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.