Archivo de la etiqueta: Hadoop

Optimización de Big Data con Apache Pig y Hadoop

Apache Pig: Una introducción completa

¿Qué es Apache Pig?

Apache Pig es una capa de abstracción sobre MapReduce. Es una herramienta/plataforma utilizada para analizar grandes conjuntos de datos representándolos como flujos de datos. Pig se usa generalmente con Hadoop; podemos realizar todas las operaciones de manipulación de datos en Hadoop usando Apache Pig.

Para escribir programas de análisis de datos, Pig proporciona un lenguaje de alto nivel llamado Pig Latin. Este lenguaje proporciona varios Seguir leyendo “Optimización de Big Data con Apache Pig y Hadoop” »

Desarrollo de Hadoop y Spark

CHULETA DE DESARROLLO DE HADOOP Y SPARK

Introducción A HADOOP

HDFS:


Es el sistema de archivos distribuido que almacena toda la información del cluster

YARN + MapReduce2:


 Asigna los recursos en los nodos, y buscar ordenar, agrupar la Información.

Tez:


Es Tecnología nueva para hacer lo del mapreduce.

Hive:


Interactual a través de sentencias HSQL

HBase:


Base de Datos Columnar incluida en el Ecología del Ecosistema Hadoop

Pig:


Lenguaje scripting para manipular la información

Sqoop:


Me permite Seguir leyendo “Desarrollo de Hadoop y Spark” »