Características de una Base de Datos Relacional y su Administración

Define las características principales de una Base de Datos Relacional.

  • Cada tabla debe tener sus primary keys (o en su caso) forean key

  • El usuario tiene una vista de la base de datos y se acomoda a las necesidades

  • Fácil escalabilidad

Funciones del DBA

Es el implementar, mantener y optimizar y administrar cantidades de información para el mejor uso y análisis de estos

Restauración de una Base de Datos

Toda base de datos debería ser restaurada cada que presente fallas o anomalías. Si dicha BD que tiene planeado ser restaurada presenta fallas o considera que no tiene una posible solución viable, puede recurrir a la restauración de una de las copias de seguridad más recientes, también aquí cabe recalcar la importancia de estas.

Política en BD

Es aquel documento en el que se especifican diferentes aspectos que se tomarán en cuenta para realizar un correcto uso, respaldo y restauración de esta, con todas sus reglas y métricas establecidas para que el usuario las implemente y no haya ningún fallo al momento de ocupar.

Características de una BD No Relacional

Las bases de datos no relacionales, como su nombre lo indica, no necesariamente tienen que tener relaciones con las demás tablas de la base de datos correspondiente. Otra característica es que estas BD son útiles para páginas web orientadas al funcionamiento de una red social, ya que es más fácil almacenar una gran cantidad de datos. También el hecho de ser no relacional facilita la escalabilidad del proyecto, esto es un gran diferenciador de las BD Relacionales, ya que al momento de escalar, es necesario volver a replantear todo el maquetado de la misma.

Las 5’v del Big data

Volumen: Cantidad de datos que se desean almacenar
Velocidad: Se tiene que agilizar la velocidad del procesamiento de los datos, ya sea con batch o tiempo real
Veracidad: CCCOPI (Consistencia, Completitud, Conformidad, Oportunidad, Precisión e Integridad)
Variedad
Valor

Ventaja de un particionamiento dinámico en HIVE

Permite a los usuarios agregar particiones a una tabla existente sin tener que alterar la estructura de la tabla, esto puede ser especialmente útil en situaciones en las que la cantidad de datos que se agregan a una tabla puede variar con el tiempo.

DAG

Un conjunto de nodos o vértices conectados mediante arcos o flechas unidireccionales que no forman ciclos.

Carga de información a una BD de datos no relacional

Datos estructurados:

  • Datos de series temporales: como los datos de sensores o registros de transacciones financieras.

  • Datos de catálogo de productos: como los atributos de los productos y sus relaciones con otros productos.

Datos no estructurados:

  • Datos de redes sociales: como publicaciones, comentarios y perfiles de usuario.

  • Datos de registro de eventos: como registros de servidor y registros de aplicación.

Tecnología para la carga de información a gran escala en Dataproc

Apache Hadoop y Apache Spark.

HDFS

HDFS es el componente de Hadoop encargado de almacenar los datos en un sistema de ficheros distribuido. Hadoop es un framework de procesamiento distribuido de Big Data

Seguridad en la base de datos

La seguridad de las bases de datos se refiere al conjunto de herramientas, medidas y controles diseñados para establecer y mantener la confidencialidad, la integridad y la disponibilidad de las bases de datos.

Formatos de almacenamiento en HIVE

Tablas, particione y buckets

Comandos en HDFS

hdfs dfs -put

Cargar archivos

hdfs fsck /

Comprueba el estado de salud del sistema de ficheros

Big Data

Constituye un volumen elevado de datos, que demandan formas rentables e innovadoras de procesamiento de la información y así tomar decisiones o automatizar procesos.

Data WareHouse

Es una base de datos centralizada que se utiliza para almacenar grandes cantidades de datos históricos de una o varias fuentes de datos, de manera que puedan ser analizados y utilizados para la toma de decisiones empresariales.

Lenguaje de Definición de Datos (DDL)

Para definir la estructura disponemos de tres sentencias:

  • CREATE, se usa para crear una base de datos, tabla, vistas, etc.

  • ALTER, se utiliza para modificar la estructura, por ejemplo añadir o borrar columnas de una tabla.

  • DROP, con esta sentencia, podemos eliminar los objetos de la estructura, por ejemplo un índice o una secuencia.

Lenguaje de Manipulación de Datos (DML)

SELECT, esta sentencia se utiliza para realizar consultas sobre los datos.
INSERT, con esta instrucción podemos insertar los valores en una base de datos.
UPDATE, sirve para modificar los valores de uno o varios registros.
DELETE, se utiliza para eliminar las filas de una tabla.

Lenguaje de Control de Datos (DCL)

GRANT, permite otorgar permisos.
REVOKE, elimina los permisos que previamente se han concedido.

Datalake

Repositorio de datos centralizado, almacena datos estructurados y no estructurados, crecimiento a cualquier escala.

Hadoop

Un framework para almacenar y procesar volúmenes de datos grandes, basados en GFS (Google File System)

Tecnología de GCP para la gestión del procesamiento de la limpieza

Utiliza la tecnología de Cloud Dataflow y la técnica de particionamiento para gestionar eficientemente el procesamiento de la limpieza de datos.

Fases de pipeline y que es

Coleccion – Ingestion – Preparacion – Computacion – Presentacion.
Es una construccion logica que representa un proceso dividido en fases. Se caracteriszan por ser un conjunto de faces y tecnologias involucradas al movimiento o procesamiento de datos

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.