Define las características principales de una Base de Datos Relacional.
Cada tabla debe tener sus primary keys (o en su caso) forean key
El usuario tiene una vista de la base de datos y se acomoda a las necesidades
Fácil escalabilidad
Funciones del DBA
Es el implementar, mantener y optimizar y administrar cantidades de información para el mejor uso y análisis de estos
Restauración de una Base de Datos
Toda base de datos debería ser restaurada cada que presente fallas o anomalías. Si dicha BD que tiene planeado ser restaurada presenta fallas o considera que no tiene una posible solución viable, puede recurrir a la restauración de una de las copias de seguridad más recientes, también aquí cabe recalcar la importancia de estas.
Política en BD
Es aquel documento en el que se especifican diferentes aspectos que se tomarán en cuenta para realizar un correcto uso, respaldo y restauración de esta, con todas sus reglas y métricas establecidas para que el usuario las implemente y no haya ningún fallo al momento de ocupar.
Características de una BD No Relacional
Las bases de datos no relacionales, como su nombre lo indica, no necesariamente tienen que tener relaciones con las demás tablas de la base de datos correspondiente. Otra característica es que estas BD son útiles para páginas web orientadas al funcionamiento de una red social, ya que es más fácil almacenar una gran cantidad de datos. También el hecho de ser no relacional facilita la escalabilidad del proyecto, esto es un gran diferenciador de las BD Relacionales, ya que al momento de escalar, es necesario volver a replantear todo el maquetado de la misma.
Las 5’v del Big data
Volumen: Cantidad de datos que se desean almacenar
Velocidad: Se tiene que agilizar la velocidad del procesamiento de los datos, ya sea con batch o tiempo real
Veracidad: CCCOPI (Consistencia, Completitud, Conformidad, Oportunidad, Precisión e Integridad)
Variedad
Valor
Ventaja de un particionamiento dinámico en HIVE
Permite a los usuarios agregar particiones a una tabla existente sin tener que alterar la estructura de la tabla, esto puede ser especialmente útil en situaciones en las que la cantidad de datos que se agregan a una tabla puede variar con el tiempo.
DAG
Un conjunto de nodos o vértices conectados mediante arcos o flechas unidireccionales que no forman ciclos.
Carga de información a una BD de datos no relacional
Datos estructurados:
Datos de series temporales: como los datos de sensores o registros de transacciones financieras.
Datos de catálogo de productos: como los atributos de los productos y sus relaciones con otros productos.
Datos no estructurados:
Datos de redes sociales: como publicaciones, comentarios y perfiles de usuario.
Datos de registro de eventos: como registros de servidor y registros de aplicación.
Tecnología para la carga de información a gran escala en Dataproc
Apache Hadoop y Apache Spark.
HDFS
HDFS es el componente de Hadoop encargado de almacenar los datos en un sistema de ficheros distribuido. Hadoop es un framework de procesamiento distribuido de Big Data
Seguridad en la base de datos
La seguridad de las bases de datos se refiere al conjunto de herramientas, medidas y controles diseñados para establecer y mantener la confidencialidad, la integridad y la disponibilidad de las bases de datos.
Formatos de almacenamiento en HIVE
Tablas, particione y buckets
Comandos en HDFS
hdfs dfs -put | Cargar archivos |
hdfs fsck / | Comprueba el estado de salud del sistema de ficheros |
Big Data
Constituye un volumen elevado de datos, que demandan formas rentables e innovadoras de procesamiento de la información y así tomar decisiones o automatizar procesos.
Data WareHouse
Es una base de datos centralizada que se utiliza para almacenar grandes cantidades de datos históricos de una o varias fuentes de datos, de manera que puedan ser analizados y utilizados para la toma de decisiones empresariales.
Lenguaje de Definición de Datos (DDL)
Para definir la estructura disponemos de tres sentencias:
CREATE, se usa para crear una base de datos, tabla, vistas, etc.
ALTER, se utiliza para modificar la estructura, por ejemplo añadir o borrar columnas de una tabla.
DROP, con esta sentencia, podemos eliminar los objetos de la estructura, por ejemplo un índice o una secuencia.
Lenguaje de Manipulación de Datos (DML)
SELECT, esta sentencia se utiliza para realizar consultas sobre los datos.
INSERT, con esta instrucción podemos insertar los valores en una base de datos.
UPDATE, sirve para modificar los valores de uno o varios registros.
DELETE, se utiliza para eliminar las filas de una tabla.
Lenguaje de Control de Datos (DCL)
GRANT, permite otorgar permisos.
REVOKE, elimina los permisos que previamente se han concedido.
Datalake
Repositorio de datos centralizado, almacena datos estructurados y no estructurados, crecimiento a cualquier escala.
Hadoop
Un framework para almacenar y procesar volúmenes de datos grandes, basados en GFS (Google File System)
Tecnología de GCP para la gestión del procesamiento de la limpieza
Utiliza la tecnología de Cloud Dataflow y la técnica de particionamiento para gestionar eficientemente el procesamiento de la limpieza de datos.
Fases de pipeline y que es
Coleccion – Ingestion – Preparacion – Computacion – Presentacion.
Es una construccion logica que representa un proceso dividido en fases. Se caracteriszan por ser un conjunto de faces y tecnologias involucradas al movimiento o procesamiento de datos