Capítulo I
Comprendiendo Big Data
1.1 ¿Qué es el Big Data?
En general Big Data es definida de diferentes maneras por un sin número de
expertos en el área de tratamiento de datos y de los negocios, pero siempre estas definiciones suelen tener su punto central en común al referirse a Big data como una herramienta de tratamiento de un gran y variado volumen de datos.
Phillip Carter, vicepresidente asociado de la consultora IDC, define el Big Data como: “una nueva generación de tecnologías y arquitecturas diseñadas para extraer valor económico de grandes volúmenes de datos heterogéneos habilitando una captura, identificación y/o análisis a alta velocidad”. Sin duda, se trata de una tendencia tecnológica emergente con una enorme y potente capacidad transformadora dentro de las empresas.
Según IBM, uno de los principales líderes en este campo, Big Data es un término que describe enormes cantidades de datos que no pueden ser procesados o analizados usando procesos o herramientas tradicionales. En cuanto a la cantidad, en general empieza a utilizarse el término Big Data cuando se habla de petabytes de datos, aunque lo que constituye un volumen “alto” varía en función del sector e incluso de la ubicación geográfica.
1.2 ¿Porque Big Data es tan importante?
Big Data es importante por tres sencillas razones que están interrelacionadas:
El enorme volumen de datos que se genera y procesa hoy en día contiene una gran cantidad de información que antes no estaba disponible, y era simplemente desconocida para nosotros. El valor que contiene los datos puede descubrirse a través de análisis automáticos de Big Data, dado que, Big Data son datos digitales. Los análisis de datos tienen la sorprendente capacidad de transformarlos en información nueva, la cual, puede llevarnos a tomar medidas inteligentes. Es posible que el tipo, la profundidad y la sofisticación de los análisis que se pueden realizar hoy en día y en un futuro cercano, nos permitan ser mucho más proactivos, esto influye en cómo se perfila el futuro en oposición a reaccionar ante las consecuencias imprevistas del pasado.
Big Data pone en nuestras manos las herramientas necesarias para hacerle frente a la complejidad de análisis y tratamiento de los datos que tan rápidamente se van generando cada minuto nuestro mundo. Claro, no queremos decir con esto que Big Data es la solución definitiva, pueden surgir otras mejores, pero mientras tanto.
1.3 Beneficios del Big Data
Mejora a la hora de descubrir necesidades para la empresa: Implementar mejoras tecnológicas para la empresa que posibilitan la adquisición de datos y permiten descubrir las necesidades y puntos de mejora en la compañía.
Mejora en la toma de decisiones: Otra ventaja es que el análisis de los datos puede mejorar sustancialmente la toma de decisiones dentro de una compañía reduciendo al mínimo los riesgos. Así, algunas organizaciones ya están optimizando sus decisiones mediante el análisis de datos de clientes, empleados, o incluso sensores incorporados en los productos.
Evalúa de forma más eficiente los productos y servicios de las empresas
Mediante el análisis de datos, obtienen información muy valiosa que les permite crear nuevos productos o rediseñar los ya existentes.
Segmentación de los clientes para personalizar acciones: De esta forma las empresas pueden orientar sus servicios y satisfacer las necesidades de sus consumidores de forma específica. La personalización de productos y servicios es una de las tendencias que pisa más fuerte actualmente.
Mejora de la accesibilidad y la fluidez de la información dentro de la propia empresa: Las empresas que digitalicen los datos y habiliten herramientas para facilitar la búsqueda de información crearán una dinámica de trabajo más rápida y eficaz.
Ventajas competitivas en la gran distribución: permite actualizar, optimizar y afinar inventarios en función de la demanda en tiempo real. El data mining o extracción de datos posibilita el análisis del comportamiento de los clientes, fijar los precios en consecuencia u ofrecer los incentivos adecuados para atraer a los clientes. Es posible realizarlo mediante la digitalización de elementos como los almacenes o las cajas registradoras.
Mejora de la eficiencia y los costes: El análisis del Big Data puede acelerar la velocidad con que se desarrolla un producto. También permite compartir datos de forma rápida y realizar simulaciones de producto. En algunos sectores, los plazos de desarrollo se han llegado a reducir entre el 30% y el 50%.
1.5 inconvenientes de Big Data
Falta de personal calificado: Las compañías generalmente no cuentan con el personal necesario para manejar las herramientas de Big Data, por esto se promueven la incursión y el desarrollo de nuevos profesionales que puedan hacer frente a la gran demanda que hay por parte de las empresas. En este sentido, algunas empresas como IBM brindan capacitaciones en línea a través de Big Data University de forma gratuita, aportando una solución al problema, a la vez que añaden un beneficio social.
Necesidad real de implementación: Este punto habla de la necesidad real de implementación de Big data en una empresa. No siempre es necesario dichas implementaciones, por eso se debe analizar qué tan eficiente será Big Data para nuestra compañía y que soluciones obtendremos con ella.
Costos: Antes de implementar cualquier tecnología, los costos son un punto importante a considerar. Debemos saber que hoy en día existen muchas plataformas dentro del universo del análisis de datos, que varían de acuerdo a las necesidades que se tengan. Claro está que la falta de los recursos necesarios puede ser la causa de no implementar Big Data, pero seguro que un análisis bien sopesado del pro y los contra, nos dará como resultado que los beneficios que se nos ofrecen son mucho más rentables.
Seguridad de los datos: la seguridad de la información de nuestros clientes y de la compañía, también es un tropiezo para poder implementar esta tecnología, ya que Big Data recolecta información impórtate ya sea por medio de aplicaciones o sensores en nuestros dispositivos o en una página web de servicio, para brindar los mejores resultados posibles acerca de gustos, tendencias, etc. Es por esto que las compañías deben hacer uso de dicha información sin comprometer al usuario final y respetando de cierta forma el anonimato del mismo.
Privacidad: Este al igual que el tema de la seguridad, son dos puntos que preocupan a las personas cuando se toca el tema de Big Data gracias a casos existentes. En todo momento las empresas deben respetar los acuerdos de confidencialidad con los usuarios, y no hacer uso mal intencionado de información relevante.
1.6 Aplicaciones del Big Data
Big Data puede ser aplicado a un sin número de casos y situaciones distintas pues su capacidad es de amplio rango. Sin embargo, una encuesta realizada por la empresa IBM reveló que el 49% de las empresas utiliza la tecnología de Big Data enfocada en soluciones a los clientes, el 18% en optimización operativa, el 15% en gestión financiera y de riesgos, y el 4% restante en colaboración de los empleados, tal como lo muestra la grafica
Ya que sabemos que esas no son las únicas aplicaciones posibles de Big Data en las empresas, podemos nombrar algunas más:
Big Data puede y es muy aplicado al área del marketing determinando el impacto de las campañas, promociones, y medir la efectividad de los medios usados en estas.
Aplicado al área de ventas, Big Data puede identificar clientes potenciales por su relación con otras comprar e identificar así mismo los clientes de más valía.
Aplicado al área de producción, se pueden calcular las tendencias de los compradores para enfocar los mayores esfuerzos en los productos que podrían tener más demanda en el mercado, además que con Big Data aplicada en esta área se pueden mejorar la calidad de los productos mediante los procesos de automatización.
1.7. ¿De dónde proviene toda esa información?
Los seres humanos cada día creamos y almacenamos información en cantidades astronómicas. Una parte es recogida en llamadas telefónicas, transacciones bancarias y demás operaciones procedentes de nuestros dispositivos móviles, que según OBS, en 2020 sumarán 30.000 millones conectados a Internet. En un minuto, en Internet se generan 4
,1 millones de búsquedas en Google, se escriben 347.000 tuits, se comparten 3,3 millones de actualizaciones en Facebook, se suben 38.000 fotos a Instagram, se visualizan 10 millones de anuncios, se suben más de 100 horas de vídeo a YouTube, se escuchan 32.000 horas de música en streaming, se envían 34,7 millones de mensajes instantáneos por Internet o se descargan 194.000 apps. En total, más de 1.570 terabytes de información por minuto.
Otra parte que suministra una cantidad considerable de datos son los sensores que monitorizan objetos y sectores como transporte, industria, servicios, etc. Estos comunican a través de la red la información de los datos capturados, y se conoce como el Internet de las Cosas, el cual según Capgemini, generará el 40% de la totalidad de los datos creados.
Y otro conjunto de datos es el que proviene de la seguridad, defensa y servicios de inteligencia. Son generados por lectores biométricos como escáneres de retina, huellas digitales o lectores de cadenas de ADN. Se analizan para obtener mecanismos de seguridad y generalmente son custodiados por ministerios de defensa y departamentos de inteligencia.
Qué pasa en 60 segundos en Internet.
Fuente: Excelacom Inc.
Obtenido de https://ticsyformacion.com/2016/04/25/que-pasa-en-un-mi
1.8 Tipos de datos que maneja Big Data:
Datos estructurados:
Son los datos que pueden ser organizados en filas y columnas, ya que su formato está bien definido para ello. Se pueden encontrar en su gran mayoría en las bases de datos relacionales tradicionales, y en las hojas de cálculo en Excel que utilizan las empresas.
Datos no estructurados: Son datos en una variedad de estructuras y que no se pueden acotar en filas y columnas. Hoy en día se estima que el 80% de los datos que hay en el internet son de este tipo en su gran variabilidad como videos, fotos, entradas a blogs, y demás.
Datos semi-estructurados: Esta es una mezcla entre los datos estructurados y los no estructurados y se pueden encontrar por ejemplo en los formularios de las páginas web.
1.9 Características Big Data
La velocidad es la idea de que los datos se están generando extremadamente rápido, un proceso que nunca se detiene. Los atributos incluyen transmisión en tiempo real o casi en tiempo real y tecnologías locales y basadas en la nube que puede procesar información muy rápidamente. El volumen es la escala de los datos, o el aumento en la cantidad de datos almacenados. Por ejemplo, exabytes, zettabytes, yottabytes, etc. Los impulsores del volumen son el aumento en las fuentes de datos, sensores de mayor resolución e infraestructura escalable.Tenemos datos estructurados que encaja perfectamente en filas y columnas, o bases de datos relacionales y datos no estructurados que no están organizados de una manera predefinida, por ejemplo, Tweets, blogposts, fotos, números, e incluso datos de video. Con la gran cantidad de datos disponibles, el debate continúa sobre la precisión de los datos en la era digital. ¿La información es real o es falsa? Los atributos incluyen consistencia, integridad, integridad, y ambigüedad. Los controladores incluyen el costo y la necesidad de rastreabilidad. La variedad es la idea de que los datos provienen de diferentes fuentes, máquinas, personas, procesos, tanto interno como externo a las organizaciones. Los atributos incluyen el grado de estructura y complejidad y los controladores son tecnologías móviles, redes sociales, tecnologías disponibles, tecnologías geo, video, y muchos, muchos más.Esta V se refiere a nuestra habilidad y necesidad para convertir datos en valor. El valor no es solo ganancia. Puede ser beneficios médicos o sociales, o satisfacción del cliente, empleado o personal.
Capitulo II
Otros conceptos relacionados con Big Data
2.1 Data Warehouse
Un Data warehouse como su nombre lo indica es un almacén de grandes volúmenes de datos, los cuales son tomados de diferentes fuentes (generalmente de bases de datos tradicionales), procesados y trasformados por medio de los ETL en un formato aceptable para ser guardados en el Data Warehouse. Posteriormente con estos datos se crean informes y cubos multidimensionales que son de mucha ayuda para las tomas de decisiones empresariales.
La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales, etc). Este tipo de persistencia de la información es homogénea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).
2.2 Características de un Data Warehouse
Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, el definió las siguientes características del repositorio de datos:
Orientado a temas. – Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.
– Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones.
– La información no se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura, y se mantiene para futuras consultas.
– La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes.
2.2 Ventajas e inconvenientes Data Warehouse
2.2.1 Ventajas:
Proporciona información clave para la toma de decisiones empresariales.
Mejora la calidad de las decisiones tomadas.
Especialmente útil para el medio y largo plazo.
Son sistemas relativamente sencillos de instalar si las fuentes de datos y los objetivos están claros.
Muy útiles para el almacenamiento de análisis y consultas de históricos.
Proporciona un gran poder de procesamiento de información.
Permite una mayor flexibilidad y rapidez en el acceso a la información.
Facilita la toma de decisiones en los negocios.
Las empresas obtienen un aumento de la productividad.
Proporciona una comunicación fiable entre todos los departamentos de la empresa.
Mejora las relaciones con los proveedores y los clientes.
Permite conocer qué está pasando en el negocio, es decir, estar siempre enterado de los buenos y malos resultados.
Transforma los datos en información y la información en conocimiento
Permite hacer planes de forma más efectiva.
Reduce los tiempos de respuesta y los costes de operación.Proporciona un menor coste en la toma de decisiones, una mayor flexibilidad ante el entorno, un mejor servicio al cliente y permite el rediseño de los procesos.
2.2.2 Desventajas:
No es muy útil para la toma de decisiones en tiempo real debido al largo tiempo de procesamiento que puede requerir. En cualquier caso, la tendencia de los productos actuales (junto con los avances del hardware) es la de solventar este problema convirtiendo la desventaja en una ventaja. En un proceso de implantación puede encontrarse dificultades ante los diferentes objetivos que pretende una organización. Una vez implementado puede ser complicado añadir nuevas fuentes de datos. Requieren una revisión del modelo de datos, objetos, transacciones y además del almacenamiento. Tienen un alto coste. Requieren sistemas, aplicaciones y almacenamiento específico.
Las empresas que utilizan data warehouse son fundamentalmente aquellas que manejan grandes volúmenes de datos relativos a clientes, compras, marketing, transacciones, operaciones. como lo son las empresas de telecomunicaciones, transporte, Turismo, fabricación de bienes de consumo masivo etc.
Aplicaciones y funciones en la empresa del Data Warehouse
Tecnologías y software de Data Warehouse
Data Mining o Minería de Datos
El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.
De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Vea más diferencias entre datos, información y conocimiento.
Características de la minería de datos:
Las características que destacan la mayor parte de los fabricantes de las herramientas de minería de datos son:
La minería de datos auxilia a los usuarios empresariales en el procesamiento de reservas de datos para descubrir relaciones de las que, en algunos casos, anteriormente ni siquiera se sospechaba.
La información obtenida a través de la minería de datos ayuda a los usuarios a elegir cursos de acción y a definir estrategias competitivas, porque conocen información que solo ellos pueden emplear.
Pueden trabajar siguiendo los mismos criterios con grandes cantidades de información histórica.
El proceso de búsqueda puede ser realizado por herramientas que automáticamente buscan patrones porque así están programadas y despliegan los tópicos más importantes.
Algoritmos y técnicas de explotación de datos:
La minería de datos hace uso de programas de búsqueda para detectar desviaciones, tendencias y patrones ocultos en los datos históricos.
Los programas mineros trabajan con procesos automáticos principalmente sobre bases de datos relacionales para buscar datos extraños, patrones, tendencias o desviaciones; pueden ser ejecutados fuera de las horas pico, usando tiempos de maquina excedentes de noche o en horas de poco proceso, lo que los convierte en ayudantes importantes.
Una ventaja de los mineros es que no requiere hardware especial o dedicado. Trabajan en las redes de oficinas nacionales o regionales, utilizando por las noches el servidor de la base de datos relacional, y las PCs o estaciones de trabajo ya existentes. Es decir trabajan sobre datos ya recolectados, en máquinas ya existentes, realizando labores útiles mientras los usuarios no se encuentran trabajando.
Software de minería de datos
Weka
Libre
Todas las
plataformas
Clustering,Regre
sion
Predictivo
Clemetine
Libre
Windows, Linux
Cliente/servidor
Red neuronal,
GRI A priori,
logística, QUEST,
CHAID, KARMA
Predictivo
Knime
Libre
Windows, Linux,
Mac Os
Algoritmos
segmentación,
árboles de
decisión, redes
neuronales,
SVM
Predictivo
IBM SPSS
Comercial
Windows, Linux
Ecuaciones
estructurales
Predictivo
RapidMiner
Libre
Windows, Linux
Cliente/servidor
Clustering,
arboles de
decisión, redes
neuronales
Predictivo
Ventajas y desventajas de la minería de Datos
La minería de datos descubre información que no se esperaba obtener. Como muchos modelos diferentes son usados, algunos resultados inesperados tienden a aparecer. Las combinaciones de distintas técnicas otorgan efectos inesperados que se transforma en un valor añadido a la empresa.
Enormes bases de datos pueden ser analizadas mediante la tecnología de data mining.
Los resultados son fáciles de entender: personas sin un conocimiento previo en ingeniería informática pueden interpretar los resultados con sus propias ideas
Contribuye a la toma de decisiones tácticas y estratégicas para detectar la información clave.
Reduce el riesgo de perder clientes: ofrecer promociones especificas o productos especiales para retenerlos.
Mejora la relación con el cliente: la empresa puede mejorar la atención al cliente a partir de la información obtenida.
Permite ofrecer a tus clientes los productos o servicios que necesitan.
Los modelos son confiables. Los modelos son probados y comprobados usando técnicas estadísticas antes de ser usado, para que las predicciones que se obtienen sean confiables y válidas.
En su mayoría, los modelos se generan y construyen de manera rápida. El modelado a veces se torna más fácil puesto que muchos algoritmos han sido probados previamente.
Abre nuevas oportunidades de negocios y ahorra costes a la empresa.
Sin embargo, también existen pequeños inconvenientes en el uso de técnicas de minería de datos, tales como:
La dificultad de recopilación de los datos. Dependiendo del tipo de datos que se quieran recopilar puede conllevar mucho trabajo.
Aunque cada vez menos, el requerimiento de una gran inversión también puede considerarse un inconveniente. En ocasiones, las tecnologías necesarias para llevar a cabo la recopilación de datos, no es tarea sencilla y consume muchos recursos que podrían suponer un coste elevado.
¿Qué es Cloud?
Cloud Computing es un nuevo concepto tecnológico que se basa en que las aplicaciones software y los equipos hardware con capacidad de proceso y almacenaje de datos no están en el PC o equipos del usuario, sino que están ubicado en un Datacenter que permite a los usuarios acceder a las aplicaciones y servicios disponibles a través de Internet o como se conoce coloquialmente a través “la Nube” de Internet, de una forma sencilla y cómoda.
Ventajas y desventajas del Cloud Computing
Ventajas:
Ahorro de costes. Pago por la utilización de productos y servicios, eliminando costes adicionales como la compra de licencias, la inversión en infraestructura informática, el mantenimiento de los equipos y sistemas o la adaptación de los mismos a nuevas necesidades. Almacenamiento y seguridad. Existen proveedores que ofrecen servicios de almacenamiento de datos de capacidad prácticamente ilimitada. Además, junto al almacenamiento se incluyen servicios de backup y restauración de la información.Acceso compartido y en tiempo real a toda la información desde cualquier parte y a través de cualquier dispositivo con conexión a Internet. .
Desventajas:
Uno depende de que el proveedor tenga una buena política y preserve los datos, aunque pueden hacerse backups periódicos al disco dura de nuestra computadora.
¡Si se corta nuestra internet, estaremos en apuros! Esta es una clara desventaja, pero podremos salvar este problema si contamos con dispositivos que nos ofrezcan una vía alternativa de conexión, como por ejemplo una conexión wifi. También existe la posibilidad de trabajar offline.
La privacidad de nuestros datos, es otro problema. Pero si nos ponemos a pensar, esto ya lo solemos hacer cuando usamos gmail, hotmail, etc. Y creo el acceso con contraseñas y sectores de seguridad con protocolo https, hacen el tema bastante acotado.
Servicios Cloud Computing
Es una tecnología fresca al igual que Big Data que nos brinda la opción de dedicar servicios a través de internet. Esta novedad tecnología busca abrigar todos nuestros ficheros e información en internet sin intranquilizares de abrigar la eficacia conveniente para guardar dicha información. Cloud Computing coge intensidad cuando el aprovisionamiento de hardware se convierte en una dificultad, ya que dicho
28
hardware tiene además de costes monetarios los tiene de extensión, escalabilidad es aquí donde Cloud Computing es una gran opción.
beneficios Cloud Computing
disminución de costes.
máximo velocidad de trabajo.
reducción en tiempo de instalación.
Acceso multiplataforma.
Información en tiempo real.
Desventajas Cloud Computing
Dependencia de proveedores y de conexión a internet
Datos sensibles se encuentran fuera de la empresa
Seguridad
Escalabilidad a prolongado período
Servicios Cloud Computing ? Amazon Web Services le ofrece un conjunto completo de servicios de infraestructuras y aplicaciones que le permiten ejecutar prácticamente todo en la nube, desde aplicaciones empresariales y proyectos de grandes datos hasta juegos sociales y aplicaciones móviles.
Fuente: http://aws.amazon.com/es/
Business Intelligence
Business Intelligence es la habilidad para transformar los datos en información, y la información en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios.
Datos, información y conocimiento
Desde un punto de vista más pragmático, y asociándolo directamente con las tecnologías de la información, podemos definir Business Intelligence como el conjunto de metodologías, aplicaciones y tecnologías que permiten reunir, depurar y transformar datos de los sistemas transaccionales e información desestructurada (interna y externa a la compañía) en información estructurada, para su explotación directa (reporting, análisis OLTP / OLAP, alertas…) o para su análisis y conversión en conocimiento, dando así soporte a la toma de decisiones sobre el negocio.
La inteligencia de negocio actúa como un factor estratégico para una empresa u organización, generando una potencial ventaja competitiva, que no es otra que proporcionar información privilegiada para responder a los problemas de negocio: entrada a nuevos mercados, promociones u ofertas de productos, eliminación de islas de información, control financiero, optimización de costes, planificación de la producción, análisis de perfiles de clientes, rentabilidad de un producto concreto, etc…
Los principales productos de Business Intelligence que existen hoy en día son:
Cuadros de Mando Integrales (CMI) Sistemas de Soporte a la Decisión (DSS) Sistemas de Información Ejecutiva (EIS)
Por otro lado, los principales componentes de orígenes de datos en el Business Intelligence que existen en la actualidad son: Datamart y Datawarehouse
Los sistemas y componentes del BI se diferencian de los sistemas operacionales en que están optimizados para preguntar y divulgar sobre datos. Esto significa típicamente que, en un datawarehouse, los datos están desnormalizados para apoyar consultas de alto rendimiento, mientras que en los sistemas operacionales suelen encontrarse normalizados para apoyar operaciones continuas de inserción, modificación y borrado de datos. En este sentido, los procesos ETL (extracción, transformación y carga), que nutren los sistemas BI, tienen que traducir de uno o varios sistemas operacionales normalizados e independientes a un único sistema desnormalizado, cuyos datos estén completamente integrados.
Colaborar ¿qué debería hacer el equipo? Decidir ¿qué camino se debe seguir?
Big Data Analytics
Es una combinación entre la tecnología y las matemáticas para analizar la información y darle significado para poder ser utilizada por las empresas, gobiernos, etc.
Existen 4 tipos de big data analytics:
El descriptivo: explica por medio de informes y gráficos lo que sucedió en el pasado sin brindar una razón especifica de por qué sucedió así, ni una predicción de lo que pasara en el futuro.
El de diagnósticos: este es similar al anterior, aunque trata de brindar una interpretación de los datos y por qué ocurrieron.
El predictivo: este es de mayor utilidad para las empresas ya que analizas los datos y a partir de ellos no brinda predicciones de lo que podría suceder.
El prescriptivo: este es una evolución del predictivo basado en procesos de automatización o AB testing. Este sistema además de analizar los datos y predecirlos ayuda a tomar decisiones brindándonos sugerencias de la acción a tomar.
La red social va aprendiendo de nuestras interacciones y ajusta nuestro muro a esa pauta de comportamiento ofreciéndonos más contenidos que cree pueden ser de nuestro agrado. Por eso, la inteligencia artificial tendrá cada vez más protagonismo en el Big Data. Ya no solo importa que el análisis de las herramientas sea eficiente, sino que además lo hagan en tiempo real e incluso puedan aprender los patrones y predecirlos.
Utilización del Big Data
Dificultades para implantar Big Data
Escollos principales: Mientras las empresas están agilizando la implementación de iniciativas de Big Data, según un reciente estudio de Xerox todavía existen problemas importantes que ralentizan la captura del valor que supone este fenómeno. Los ejecutivos manifestaron que hay muchos retos en la implementación de estrategias de Big Data, entre las que se incluyen la seguridad, privacidad y calidad de los datos. Según este informe, la falta de formación y la gestión del cambio inadecuada están ocultando la transformación de negocio que las soluciones de Big Data ofrecen.
El informe también apunta que el Big Data será clave en la toma de decisiones durante este año ya que el 61% de las organizaciones a las que se preguntó que admiten que las actuaciones que adopten durante el 2015 probablemente estarán más centradas en la inteligencia basada en datos que en factores como la experiencia, la opinión u otras valoraciones de naturaleza subjetiva. Además, incide sobre el coste de la falta de precisión en el manejo de la información. «La imprecisión de los datos sale cara», afirman los autores. «El 70% de empresas se están encontrando con datos erróneos en sus sistemas y el 46% cree que esto impacta en su negocio de forma negativa, por lo que es necesario depurar y actualizar muy bien esos datos», añade.
Entre los factores a mejorar, el informe también apunta de forma imperativa hacia una mejora en la privacidad y la seguridad de los datos que manejan las empresas. El 37% de las empresas señala hacia la seguridad y privacidad como uno de los «principales retos» a los que se enfrentan cuando quieren implementar estrategias de Big Data. Sin embargo, «A pesar de las dificultades, la gran mayoría de las empresas están migrando hacia la tecnología de Big Data a través de una amplia variedad de casos de uso», afirma el informe. «También existen muchos problemas que preocupan a los ejecutivos», añade. Según el estudio, solo un 20% de las empresas muestra una alta competencia en Big Data. Mientras tanto el 31% se está quedando por detrás de sus planteamientos y un 49% se encuentra en un punto intermedio.
Plataformas y software para tratamiento de Big Data
6.1 MAPREDUCE
MapReduce es el nombre que se le da al framework de procesamiento de ficheros en paralelo en nuestro cluster Hadoop. Es un software de desarrollo de aplicaciones que procesa gran número de datos en paralelo. Este procesamiento esta compuesto de varias etapas:
Fichero de entrada: determinar el número de bloques del fichero. Input Format: se dividen los datos de entrada. Describe la especificación de entrada para un trabajo mapReduce. Input Split: son los datos que van a ser procesados por el Mapper. Se corresponden con un un bloque del fichero. Record Reader: convierte los datos del InputSplit en pares (clave, valor). La línea será leída como valor y como clave el offset correspondiente. Mapper: como dato de entrada tiene un registro clave-valor que procesará y generará una respuesta en forma de clave-valor. Combiner: agrupa los datos intermedios de la salida de los mapper de un nodo para enviar menos datos a través de la red a los reducers. Se podrá realizar siempre que la operación sea asociativa y conmutativa. Partitioner: agrupa las claves que son iguales para enviarlas a un Reducer. El número de partitioners debe de ser igual al número de reducers. Shuffle and sort: a través de http se obtienen todos los resultados para cada clave enviada por los mappers. Los registros con misma clave se agrupan y se ordenan para después mandarlos por grupos a los reducers. Solo se puede iniciar cuando todas las tareas Map han terminado. Reducer: agrega los resultados obtenidos de los diferentes mappers con la misma clave. Procesa la salida final que normalmente es un fichero HDFS. El número de tareas reduce es definida por el usuario. La salida tendrá tantos ficheros como reducers se hayan definido. Output Data: obtendremos tantos ficheros de salida como reducers tengamos. Cada tarea Map se ejecuta normalmente sobre un único bloque HDFS. Se crean tantas tareas map como bloques tengamos que procesar. Por lo general esta tarea Map se ejecuta sobre el nodo que almacena los datos.
Hadoop puede trabajar con una gran variedad de formatos de compresión. Cuando hay que procesar un fichero comprimido hadoop lo descomprime automáticamente y sirve el contenido.
Hay algunos formatos como Gzip que no son divisibles y tiene que ser descomprimido de principio a fin. No pueden descomprimirse partes de un fichero. Si se diera el caso de pasaría el fichero completo al mapper lo que puede desastibilizar la carga de los nodos.
Es este paradigma de programación que permite una escalabilidad masiva en cientos o miles de servidores en un clúster de Hadoop. El concepto de MapReduce es bastante simple de entender para aquellos que están familiarizados con las soluciones de procesamiento de datos escalables en clúster.
Para las personas nuevas en este tema, puede ser algo difícil de comprender, porque no es algo a lo que la gente haya estado expuesta anteriormente. Si es nuevo en los trabajos de MapReduce de Hadoop, no se preocupe: lo vamos a describir de una manera que le permita ponerse al día rápidamente.
El término MapReduce en realidad se refiere a dos tareas separadas y distintas que realizan los programas de Hadoop. El primero es el trabajo del mapa, que toma un conjunto de datos y los convierte en otro conjunto de datos, donde los elementos individuales se dividen en tuplas (pares clave / valor). El trabajo de reducción toma la salida de un mapa como entrada y combina esas tuplas de datos en un conjunto más pequeño de tuplas. Como lo implica la secuencia del nombre MapReduce, el trabajo de reducción siempre se realiza después del trabajo del mapa.
Un ejemplo de MapReduce
Veamos un ejemplo simple. Supongamos que tiene cinco archivos, y cada archivo contiene dos columnas (una clave y un valor en términos de Hadoop) que representan una ciudad y la temperatura correspondiente registrada en esa ciudad para los distintos días de medición. Por supuesto, hemos hecho que este ejemplo sea muy simple, así que es fácil de seguir. Puede imaginar que una aplicación real no será tan simple, ya que es probable que contenga millones o incluso miles de millones de filas, y es posible que no sean filas formateadas; de hecho, no importa qué tan grande o pequeña sea la cantidad de datos que necesita analizar, los principios clave que estamos cubriendo aquí siguen siendo los mismos. De cualquier manera, en este ejemplo, la ciudad es la clave y la temperatura es el valor.
Toronto, 20
Whitby, 25
Nueva York, 22
Roma, 32
Toronto, 4
Roma, 33
Nueva York, 18
De todos los datos que hemos recopilado, queremos encontrar la temperatura máxima para cada ciudad en todos los archivos de datos (tenga en cuenta que cada archivo puede tener la misma ciudad representada varias veces). Usando MapReduce framework, podemos dividirlo en cinco tareas de mapa, donde cada asignador trabaja en uno de los cinco archivos y la tarea del mapeador pasa por los datos y devuelve la temperatura máxima para cada ciudad. Por ejemplo, los resultados producidos a partir de una tarea de mapeador para los datos anteriores se verían así:
(Toronto, 20) (Whitby, 25) (Nueva York, 22) (Roma, 33)
Asumamos las otras cuatro tareas de mapeo (trabajando en los otros cuatro archivos que no se muestran aquí) produjeron los siguientes resultados intermedios:
(Toronto, 18) (Whitby, 27) (Nueva York, 32) (Roma, 37) (Toronto, 32) (Whitby, 20) (Nueva York, 33) (Roma, 38) (Toronto, 22) (Whitby, 19) (Nueva York, 20) (Roma, 31) (Toronto, 31) (Whitby, 22) (Nueva York, 19) (Roma, 30)
Las cinco corrientes de salida se incorporarán a las tareas de reducción, que combinan los resultados de entrada y salida un valor único para cada ciudad, produciendo un resultado final establecido de la siguiente manera:
(Toronto, 32) (Whitby, 27) (Nueva York, 33) (Roma, 38)
Como una analogía, puede pensar en el mapa y reducir tareas como la forma en que se realizó un censo en tiempos de los romanos, donde la oficina del censo enviaba a su gente a cada ciudad del imperio. A cada tomador del censo en cada ciudad se le asignaría la tarea de contar el número de personas en esa ciudad y luego devolver sus resultados a la ciudad capital.
Allí, los resultados de cada ciudad se reducirían a un solo recuento (suma de todas las ciudades) para determinar la población total del imperio. Este mapeo de personas a las ciudades, en paralelo, y luego combinando los resultados (reduciendo) es mucho más eficiente que enviar a una sola persona a contar cada persona en el imperio de forma serial.
6.2 HADOOP
Características de Hadoop:
Breve historia de Hadoop
Arquitectura Hadoop
Funcionamiento Hadoop
Ejemplos de empresas que utilizan Hadoop
LOS APPLIANCES
Pentaho
Inteligencia de Negocio (BI)
El grado de madurez alcanzado en las herramientas de Business Intelligence (BI) permite aprovechar la potencia de estos Sistemas para la toma de decisiones en las Organizaciones.
La utilidad real de este tipo de soluciones consiste en disponer de información completa en el momento preciso. Independientemente del volumen de información, es posible analizar y transformar los datos para convertirlos en conocimiento útil para la dirección.
Pentaho es una una suite BI abierta, que cuenta con la incorporación de las principales herramientas del mercado Open Source. Cuenta con una gran comunidad de desarrollo, que realiza constantes mejoras y extensiones en la Plataforma.
Pentaho se compone de un entorno, al que podrá acceder vía web, de forma segura. Cada usuario visualiza todos los elementos habilitados para su perfil, que incluirán informes, análisis OLAP y cuadros de mando con indicadores y tablas. Usted podrá generar nuevas vistas de análisis y nuevos informes y guardarlos asociados a su perfil, para consultarlos más tarde, así como exportarlos a Excel, PDF o realizar su impresión en papel.
Cuadros de mando cuadros de mando de pentaho. Escritorios con vistas rápidas del estado de la Organización, agrupando indicadores, gráficos, gráficos geoespaciales, tablas, listados de informes y cubos en un sólo documento. El aspecto es totalmente personalizable al tratarse de una página web, y permite realizar la navegación (drill and down), para llegar a la fuente de los datos.
Informes dinámicos
Podrá crear informes personalizados a partir de su información, de forma rápida e intuitiva en tan solo 4 pasos. No necesita tener conocimientos técnicos, ya que la información habrá sido modelada previamente como objetos de negocio, comprensibles para los usuarios “no informáticos”.
Análisis OLAP
Análisis OLAP Puede disfrutar de las ventajas de los informes multidimensionales en forma de cubos OLAP generados por el motor. Las tablas dinámicas aportan gran dinamismo a la Plataforma, facilitando a los usuarios las herramientas necesarias para creación de cubos personalizados.
Técnicas de análisis
Minería de Datos
¿Imagina poder saber de antemano las preferencias de un nuevo cliente y el posible comportamiento que tendrá, y así realizar una campaña de marketing efectiva? ¿O descubrir las características de un cliente moroso, o los productos que producen mayor insatisfacción a sus clientes? La Minería de Datos aporta técnicas de computación que aplican algoritmos complejos a los datos, para descubrir y mostrar patrones ocultos de comportamiento.
Transformación para la creación de los almacenes de datos. Carga periódica de forma desatendida.
Definición Reglas y objetos de Negocio
Modelado de los datos para conseguir un formato comprensible para los usuarios no técnicos, estableciendo reglas de negocio avanzadas.
Todas las actividades realizadas en la plataforma quedan registradas en el sistema para auditoría y control.
Soporta un gran conjunto de bases de datos y es integrable con otras aplicaciones mediante Servicios Web. La Autenticación de los usuarios puede ser realizada con Base de Datos, o bien a través de sistemas LDAP o Single Sign On.
Business Case del Big Data
Seguridad en Big Data
Ley de protección de datos y Big Data
Casos de empresas que utilizan Big Data
PAYPAL
Es una compañía del grupo EBay la cual ha implementado una forma rápida y segura de pagar por internet sin tener la necesidad de compartir la información financiera de las cuentas de crédito con los vendedores. Opera en 195 países con 25 divisas diferentes y con más de 12816 millones de cuentas activas.
PayPal al igual que otras compañías como Amazon o Google gracias a la tecnología Big Data han desarrollado patrones de actividad fraudulenta. Esto lo consigue recopilando datos de sitios fraudulentos tales como datos financieros, direcciones IP, información del navegador, diferente tipología de información con las cual pueden identificar con antelación prevenir transacciones fraudulentas. Gracias a esto PayPal es la forma de pago más fiable de internet y en la que confían más usuarios en todo el mundo.
EBAY
Es un portal Web de compra y venta en Internet: un lugar en el que se reúnen compradores y vendedores para intercambiar prácticamente de todo. EBay en 2012 tenía más de 100 millones de usuarios activos según sus informes oficiales.
EBay gracias a la tecnología Big Data, consigue beneficios de: Búsquedas y anuncios inteligentes. Búsqueda de patrones de vendedores fraudulentos. Almacenamiento de cuentas de usuario, anuncios, fotos, etc. Búsqueda de artículos más rápidos: Los ingenieros de EBay comunican que gracias a Hadoop son capaces de acceder a más de 300 millones de anuncios de empresas, además de obtener gran cantidad de información histórica con lo que les permite entender a todos los clientes.
Para 2015 prevé un volumen de ventas de 86000 millones de euros este nivel de transacciones no sería posible sin la tecnología Big Data
Facebook es una red social que crece día a día y acumula más de 100 peta bytes. Gran parte de los ingresos de FB son gracias a la publicidad. Gracias a Big Data FB gestiona toda su publicidad de manera inteligente dirigiéndola a los usuarios que la requieren. Otro ejemplo claro de la utilización de Big Data es el etiquetado inteligente que detecta los rostros según los usuarios. Pero el ejemplo más claro es el manejo de las bases de datos de FB donde almacena fotos, perfiles, conversaciones, usuarios en más de 50000 servidores.
Si a todo esto le añadimos que también recopila información de nuestros dispositivos móviles y de los navegadores que utilizamos nos podemos imaginar la gran cantidad de datos que tiene que manejar FB.
Se utiliza Hadoop para almacenar copias de registro interno y las fuentes de datos de dimensiones y lo utilizan como una fuente para la presentación de informes / análisis y aprendizaje automático. A fecha de 19/06/2013 tienen 2 grandes grupos:
Un grupo 1100-máquina con 8.800 núcleos y un 12 PB de almacenamiento de crudo. Cada nodo (productos básicos) tiene 8 núcleos y 12 TB de almacenamiento. Para ello LastFM analiza la música que miles de usuarios están escuchando en cada momento y así recopilar información sobre que canciones le gustan más a cada usuario, con qué frecuencia o momentos del día escuchan las diferentes canciones, etc. Una vez recopilada dicha información se compara con la de millones de oyentes de todo el mundo para así recomendarte la música, los artistas, los álbumes que más les gustan a los usuarios. Además, lo utilizan para el cálculo de tablas, informes sobre canciones más escuchadas en todo el mundo, análisis de funciones de audio a gran escala. Sin olvidarnos que LastFM es capaz de recoger las pistas de MP3 de nuestros dispositivos portátiles y de otros softwares como Spotify. Para realizar esto LastFM utiliza Hadoop: a. Dual quad-core Xeon L5520@2.27GHz y L5630@2.13GHz, 24 GB de RAM, 8 TB (4x2TB) / nodo de almacenamiento.
Spotify:
Spotify es la plataforma musical más conocida actualmente. Spotify ofrece múltiples servicios, aunque el principal es ofrecer música en “Streming”, es decir, a través de internet, para ello tiene una base de datos con más de 10000 canciones. No obstante ofrecer música no es su único servicio al igual que LastFM ofrece recomendaciones musicales por gustos, ofrece radios interactivas, posibilidad de conectarse con diversos usuarios para ver la música que escuchan incluso de conectarse a diversas
60 redes sociales. Y no debemos olvidar que Spotify no es un servicio gratuito y tiene que implementar formas de pago seguras como ya se comentó anteriormente de EBay y PayPal. A continuación, se muestran datos recogidos por Spotify en Hadoop:
200 GB de datos comprimidos de usuarios por día.
100GB de datos de servicios por día.
60GB de datos generados por Hadoop al día.
190 nodos por clúster de 4 PB de capacidad de almacenamiento.
LinkedIn:
LinkedIn es la mayor red profesional del mundo con más de 225 millones de usuarios con el objetivo de poner en contacto a profesionales del mundo laboral para ayudarles a aumentar su productividad y rendimiento. Cuando un usuario accede a LinkedIn obtiene acceso a personas, empleos, noticias, actualizaciones e información en tiempo real. La base de datos de LinkedIn es inmensa debido a la cantidad de CV que ingresan los usuarios o empresas en busca de trabajadores. Además, realiza análisis en búsqueda de recomendaciones de trabajo según los perfiles de cada usuario, almacenamiento de fotos, correos internos, como se puede observar es una red social con mucho tránsito de datos.
o PIG: analiza los grandes conjuntos de datos, es capaz de manejar cualquier tipo de dato. o HIVE: es una infraestructura de Data Warehouse, que facilita administrar grandes volúmenes de datos.
Twitter:
Twitter es una aplicación web de microblogging, que reúne las ventajas de los blogs, las redes sociales y mensajería instantánea, de este modo los usuarios pueden estar en contacto en tiempo real con personas de su interés con mensajes de no más de 140 caracteres. Actualmente Twitter tiene almacenados cerca de 12 Terabytes de Tweets creados diariamente, por ello para gestionar tan descomunal número necesita de tecnologías Big Data.
Para ello utiliza:
Web and Social Media: es un tipo de contenido de Big Data que se recopila en las redes sociales. Cassandra: es una base de datos no relacional distribuida. Permite el manejo de grandes volúmenes de datos. Hive: es una infraestructura de Data Warehouse, que facilita administrar grandes volúmenes de datos.
Conclusiones
Recomendaciones
Glosario
anexos
Bibliografía
– [Instructor] Hola y bienvenidos a Big Data University.
Al final de esta lección,
habrás definido Big Data
y usted estará familiarizado con las características
de Big Data.
Sabrá lo que representan las V de Big Data
y apreciarás por qué tanta gente
están interesados en Big Data.
Bernard Marr define Big Data como el rastro digital que estamos generando en esta era digital. Esta traza digital se compone de todos los datos que es capturado cuando usamos tecnología digital. La idea básica detrás de la frase Big Data es que todo lo que hacemos es irse cada vez más un rastro digital que podemos usar y analizar para ser más inteligente.
Las fuerzas motrices en este mundo nuevo y valiente son el acceso a volúmenes de datos cada vez mayores y nuestra capacidad tecnológica en constante aumento
para extraer esos datos para obtener información comercial.
La firma de investigación Gartner, define Big Data de la siguiente manera: Big Data es de gran volumen, alta velocidad y / o alta variedad activos de información que demandan rentabilidad, formas innovadoras de procesamiento de la información que permiten un mejor conocimiento, toma de decisiones
y automatización de procesos.
Ernst and Young ofrece la siguiente definición: Big Data se refiere a los volúmenes dinámicos, grandes y dispares de datos creados por personas, herramientas y máquinas.
Requiere nuevo, innovador, y tecnología escalable para recolectar, alojar y procesar analíticamente la gran cantidad de datos se reunieron para obtener información empresarial en tiempo real que se relacionan con los consumidores, el riesgo, el beneficio, el rendimiento, gestión de la productividad y mayor valor para los accionistas.
Lisa Arthur, colaboradora de Forbes, define Big Data como una colección de datos de tradicionales y fuentes digitales dentro y fuera de una empresa que representan una fuente de descubrimiento y análisis en curso.
No hay una definición única de Big Data,
pero hay ciertos elementos que son comunes
a través de las diferentes definiciones,
como la velocidad, el volumen, la variedad y la veracidad.
La velocidad es la velocidad de los datos, o la velocidad a la que se acumulan los datos.
El volumen es la escala de los datos, o el aumento en la cantidad de datos almacenados.
La variedad es la diversidad de los datos. Tenemos datos estructurados
eso encaja perfectamente en filas y columnas, o bases de datos relacionales
y datos no estructurados que no están organizados de una manera predefinida,
por ejemplo, Tweets, blogposts, fotos, números, e incluso datos de video.
Con la gran cantidad de datos disponibles, el debate continúa sobre la precisión de los datos en la era digital. ¿La información es real o es falsa?
La velocidad es la idea de que los datos se están generando extremadamente rápido, un proceso que nunca se detiene. Los atributos incluyen transmisión en tiempo real o casi en tiempo real y tecnologías locales y basadas en la nube que puede procesar información muy rápidamente.
El volumen es la cantidad de datos generados. Por ejemplo, exabytes, zettabytes, yottabytes, etc. Los impulsores del volumen son el aumento en las fuentes de datos, sensores de mayor resolución e infraestructura escalable.
Los atributos incluyen consistencia, integridad, integridad, y ambigüedad. Los controladores incluyen el costo y la necesidad de rastreabilidad.
La variedad es la idea de que los datos provienen de diferentes fuentes,
máquinas, personas, procesos, tanto interno como externo a las organizaciones.
Los atributos incluyen el grado de estructura y complejidad y los controladores son tecnologías móviles, redes sociales, tecnologías ponibles, tecnologías geo,
video, y muchos, muchos más.
Veamos algunos ejemplos de las V en acción. Velocidad: cada 60 segundos, se cargan horas de metraje
a YouTube.
Esta cantidad de datos se genera cada minuto.
Volumen: todos los días creamos aproximadamente
2.5 quintillones de bytes de datos.
Eso es 10 millones de DVD Blu-ray todos los días.
La población mundial es de aproximadamente siete mil millones de personas,
y la gran mayoría de las personas
ahora están usando dispositivos digitales.
Todos estos dispositivos generan, capturan y almacenan datos.
Y con más de un dispositivo, por ejemplo,
dispositivos móviles, computadoras de escritorio, computadoras portátiles, etc.
Variedad: pensemos en los diferentes tipos de datos,
texto, imágenes y película.
¿Qué pasa con el sonido, los datos de salud de dispositivos portátiles,
y muchos tipos diferentes de datos de dispositivos conectados
a internet de las cosas
Veracidad: el 80% de los datos se considera desestructurado
y debemos idear maneras
para producir ideas confiables y precisas.
Los datos deben categorizarse, analizarse y visualizarse.
Esta V se refiere a nuestra habilidad y necesidad
para convertir datos en valor
El valor no es solo ganancia. Puede ser beneficios médicos o sociales,
o satisfacción del cliente, empleado o personal.
Las razones principales de por qué las personas invierten tiempo para entender
Big Data es para sacarle provecho.
Este es solo el comienzo de su educación Big Data.
Descargar video Descargar la transcripción
.TXT
Mostrar discusión Nueva publicación
Anterior Siguiente
Conceptos básicos de Big Data, TRC Informática
https://www.youtube.com/watch?v=d9NJt4DBb-I
http://onerp.es/beneficios-big-data-empresa/
Big Data: Es hora de generar valor de negocio con los datos. ¿Qué es Big Data?, 18-06-2012, Disponible en: https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html
http://www.sinnexus.com/business_intelligence/datawarehouse.aspx
https://datawarehouse.es.tl/Ventajas-y-desventajas.htm
http://www.sinnexus.com/business_intelligence/datamining.aspx
Minería de Datos: conceptos, características, estructura y aplicaciones.
Minería de Datos: conceptos, características, estructura y aplicaciones, M. Springer Berlin Heidelberg.
http://www.itelligent.es/es/10-ventajas-la-mineria-web/
https://www.revistacloudcomputing.com/glosario-cloud-computing/
https://geeksroom.com/2010/04/16293/16293/
http://www.sinnexus.com/business_intelligence/
http://www.elmundo.es/economia/2015/06/17/55805ed3268e3eca338b4593.html