Skip to main content
Oozie_Hadoop

Oozie: Programando Jobs en Hadoop

Tiempo de Lectura: 4 minutos

 

Una funcionalidad indispensable en cualquier proyecto de sistemas es el poder programar ejecuciones o acciones que realicen distintas tareas en ciertos periodos de tiempo. Por ejemplo, ejecutar la carga de nuestra bodega diariamente, ejecutar transformaciones de datos o incluso la publicación de la misma…todo esto es posible también con nuestra arquitectura Hadoop, el proyecto el cual te permite realizar este tipo de acciones es Oozie.

Qué es Oozie?

Es un proyecto el cual nos permite planificar workflows o Flujos de trabajo para administrar jobs de Apache Hadoop. Por ejemplo, tal vez tengas un Job de MapReduce el cual te gustaría ejecutar cada día a las 7 de la mañana…algo muy similar a los Cron Jobs de Unix.

Oozie combina múltiples secuencias de Jobs dentro de una unidad lógica de trabajo llamada workflow en la cual podemos incluir cualquier tipo de tarea que necesitemos, Oozie está complemente integrado con los demás proyectos de Apache Hadoop, lo que le permite soportar varios tipos de Jobs Hadoop como por ejemploMap-Reduce, Streaming map-reduce, Pig, Hive, Sqoop y Distcp como también Jobs más específicos como Java programs y shell scripts.

Oozie es una herramienta muy completa, la cual también le permite a los administradores del cluster, construir transformaciones de datos complejos como resultado de múltiples componentes de tareas.

Oozie en el ecosistema Hadoop

Oozie al permitir ejecutar distintos tipos de Jobs de aplicaciones dentro del ecosistema Hadoop, es parte fundamental de cualquier proyecto y se encuentra transversalmente a todos los demás proyectos Hadoop, así que una aproximación a la arquitectura Hadoop con Oozie podría ser la siguiente:

Oozie_in_Hadoop

Cómo Trabaja Oozie?

Oozie posee internamente un modelo de ejecución llamado Directed Acyclic Graph DAGS. DAGS es un tipo de asistente que coordina y asiste la ejecución completa del workflow creado, utilizando el mínimo de recursos, lo que significa que no existen loops dentro del grafo del workflow por lo cual todas las tareas y dependencias se ejecutan de inicio a fin en un solo camino permitiendo una ejecución más limpia de los procesos.

En pocas palabras, Oozie ejecuta sus Jobs de manera secuencial dado una mejor administración y ejecución de las tareas en general.

Componentes de funcionamiento

Oozie workflow

Permite correr cualquier job. Es el componente que proporciona soporte para definir y ejecutar secuencias controladas de MapReduce, Hive y Pig Jobs.

Si quieres ejecutar un job, es necesario crear previamente un workflow definiendo un detalle de lo que se ejecutara y sus parámetros necesarios.

Como se comentó anteriormente, los workflow Jobs son DAG el cual permite especificar una secuencia de acciones a ejecutar.

Oozie Coordinator

Este componente permite gestionar los Jobs que están ejecutándose tanto por tiempo de ejecución como por disponibilidad de datos. Es quien le indica a Oozie en que momento se ejecutara y con que disponibilidad de datos.

Por ejemplo, si en la ejecución de un job dependemos de un archivo en particular, pues Oozie Coordinator validará por nosotros si el archivo existe y hasta que no esté disponible no se ejecutara.

Oozi Bundel

Este por el contrario permite agrupar múltiples Coordinators y distintos Workflows Job, brindando una ambiente de administración del ciclo de vida de los mismos.

Ejemplo de un workflow

Oozie Hadoop WorkFlow

El ejemplo anterior define un escenario cómo el siguiente:

  • Inicia el workflow con un job Mapreduce: si este obtiene un error se destruirá de lo contrario sigue su curso a la bifurcación
  • Luego, el resultado anterior ejecuta en dos Jobs distintos: no en MapReduce y otro en script Pig.
  • Su resultado es unificado para pasar a las decisiones, aquí se ejecutará cuantas veces ea necesario un job Mapreduce (supongamos que validamos disponibilidad de datos, hasta que no tenga la cantidad necesario de registros no continua, por se ejecutará cuantas veces sea necesario)
  • Una vez termina el anterior, se ejecuta un job programado en Java el cual almacenará el resultado en el File System de Hadoop
  • Se da por terminado el workflow.

Estados de un workflow

Oozie Workflow States

  • PREP: Cuando un Workflow job es creado por primera vez, su estado será PREP. EL workflow es definido pero no está en ejecución.
  • RUNNING: Cuando un Workflow job es iniciado su estado cambiará a RUNNING, éste permanecerá en estado RUNNING mientras no alcance su estado final, finalice con error o esté suspendido.
  • SUSPENDED: Un Workflow job en estado RUNNING puede ser suspendido SUSPENDED, estará en SUSPENDED mientras no se reanude su ejecución o sea terminado a la fuerza.
  • SUCCEDED: Cuando un Workflow job que está en RUNNING llega hasta el final del nodo sin problemas, su estado final será SUCCEDED.
  • KILLED: Cuando un Workflow job CREATED, RUNNING o SUSPENDED es terminado por el administrador o el propietario del Workflow job a la fuerza, su estado final será KILLED.
  • FAILED: Cuando un Workflow job en ejecución RUNNING falla con cualquier error inesperado, éste finalizará y su estado será FAILED.

Algunas características WorkFlow de Oozie

  • Un workflow Oozie es una aplicación DAG que coordina los siguientes tipos de acciones: hadoop, Pig, hive, sub-workflows, scripts Shell,etc.
  • Oozie no soporta ciclos o bucles en la definición de los workflows, las definiciones workflow solo pueden ser de tipo DAG.
  • Si en un despliegue de un workflow Oozie detecta un ciclo, el despliegue fallará.
  • Un workflow es un archivo que contiene la definición del workflow en XML con todos los archivos y acciones necesarias para ejecutar las acciones: archivos JAR para trabajos MapReduce, scripts para flujos de trabajos MapReduce, librería nativas, scripts Pig, scripts Hive y otros archivos de origen.
  • La definición de una workflow para Oozie está basado en XML y ésta es llamado HPDL (Hadoop Process Definition Language).
  • Los requerimiento mínimos para definir un Oozie workflow XML son nombre, punto de inicio y punto de finalización.
  • Los nodos del flujo de control proporcionan un camino a la ruta de ejecución
  • El nodo de inicio especifica un punto de inicio para Oozie Wrkflow
  • El nodo final especifica un punto de finalización para Oozie Wrkflow
  • Para un Oozie Workflow MapReduce, nosotros necesitamos definir una acción y dentro de la acción especificaciones con los parámetros del MapReduce.
  • Dentro de la acciones, nosotros también podemos proporcionar los tags <ok> y <error> directamente para la siguiente acción encado de tener una ejecución satisfactoria o con error.

Conclusión sobre Oozie

Programar tareas es una parte esencial de cualquier proyecto y Hadoop no se queda atrás, este particular proyecto nos permite automatizar a gran escala toda clase de tareas necesarias para nuestra carga de data, transformación de datos, almacenamiento y disponibilidad de los mismos y cuando lo necesitemos, es por eso que considero siempre que puedas incluir estas funcionalidades a tu arquitectura Hadoop.

 

Leaderboard-PackHadoop

 

¿Qué te pareció Oozie? ¿Consideras que debe ser tenido en cuenta en una solución Big Data con Hadoop? ¿Crees necesario tener en tu proyecto la programación y ejecución automática de tus tareas?

Especialista en Business Intelligence con experiencia en herramientas como Pentaho, Microsoft y Microstrategy. Inmerso en Big Data, las Nuevas Tendencias, el Futbol y la Música.
MongoDB+R+OpenData

MongoDB + R + Open Data

Uno de las principales ventajas del Big Data son las tecnologías emergentes, las mismas nos dan la posibilidad de interactuar con distintas soluciones que satisfacen requerimientos puntuales en nuestro desarrollo (esto se conoce como persistencia poliglota).Gracias a la evolución del tratamiento de los datos tenemos muchas alternativas para su almacenamiento y análisis, las bases de datos NoSQL han tenido una gran aceptación en el mercado y poco a poco las organizaciones están empezando a perder el miedo a soluciones Open Source y han ido incluyendo esta tecnología a sus procesos de almacenamiento.

Una de estas nuevas tecnologías son las bases de datos NoSQL Documentales, estas bases son muy versátiles y la ventaja de no depender de un modelo fijo de datos da cierta dinámica en desarrollo y administración. Una de las bases  de datos más importantes de la actualidad es MongoDB, la cual ha crecido abismalmente a lo largo de los años y cuenta con un sistema muy robusto de servicios y soporte.

Por otro lado encontramos el análisis de los datos, aquí nuevamente encontramos otra solución Open Source…hablo del Software R, ya muy conocido en nuestro medio.

Así que me gustaría tuvieras presente tanto si te enfocas en administrar los datos o en analizarlos, es que puedes combinar ambas soluciones para tu beneficio, tomando la versatilidad de los datos almacenados con el poder de analizarlos sin tener que distraerte en aprender algún otro lenguaje.

Desde R podemos realizar consultas directamente en nuestra base MongoDB mediante el paquete Mongolite.

El pasado 19 de Agosto de 2017 junto a Víctor Hugo Males (Data Science y también blogger) realizamos un meetup en la universidad Javeriana de Cali donde presentamos el uso de MongoDB desde R, mostrando la facilidad de manipular los datos almacenados en la base de datos documental y cómo el procesamiento a gran escala de los datos queda del lado del motor de la base librando nuestra memoria local. También hablamos un poco de Open Data y su uso.

A continuación te comparto el video de la charla realizada en la Pontificia Universidad Javeriana de Cali Colombia.

También te comparto las demás presentaciones del día:

Introducción a los datos espaciales en R
Introducción al Big Data sparklyr y ML con R

 

Especialista en Business Intelligence con experiencia en herramientas como Pentaho, Microsoft y Microstrategy. Inmerso en Big Data, las Nuevas Tendencias, el Futbol y la Música.
Sqoop

Sqoop: Poblando Hadoop desde RDBMS

Tiempo de Lectura: 4 minutos

Una de las principales fuentes del Big Data son la bases de datos relaciones, en una organización pueden existir millones de registros en distintas tablas, transacciones por segundo o incluso muchos años de historia. Lo más probable es que no se exploten dichos datos y no se beneficien del gran potencial que tienen en su poder, pues procesar tal cantidad de datos con sistemas tradicionales es un gran reto.

Este es uno de los principales usos del Big Data, donde las organizaciones pueden contar con mucha historia almacenada esperando ser analizada en Hadoop (Map Reduce, Machine Learning, Predictive, etc). Es por eso que Hadoop cuenta con una herramienta llamada Sqoop la cual te permite transferir datos desde distintos RDBMS a Hadoop y de Haddop a RDBMS.

 

¿Qué es Sqoop?

Sqoop es una herramienta cuya principal funcionalidad es transferir datos entre bases de datos relacionales o Data Warehouse y Hadoop. Sqoop automatiza la mayor parte de los procesos de transferencia, basándose en la base de datos para describir el esquema de los datos a importar, además para su funcionamiento utiliza MapReduce para importar y exportar los datos, lo que proporciona una operación en paralelo, así como tolerancia a fallos.

Sqoop le permite a los usuarios especificar la ubicación de destino dentro de Hadoop (pueden tablas Hive o HBASE) e instruir a Sqoop para mover datos de Oracle, Sql Server, Teradata u otras bases de datos relacionales al destino.

 

¿Cómo Trabaja Sqoop?

Sqoop funciona como una capa intermedia entre las bases de datos relacionales y Hadoop:

Sqoop

Import Sqoop

Sqoop escribe desde las tablas o consultas Sql específicas registro por registro paralelamente, por lo cual el resultado pueden ser múltiples archivos almacenados en HDFS con una copia de los datos importados. Estos archivos podrían ser txt separados por comas o tabulaciones, binarios Avro o SequenceFiles

Import Sqoop
Fuente: bigdatariding

 

Argumentos Comando Import

Al ver la siguiente lista de argumentos para realizar la importación, podemos ver que el proceso inicial no es del otro mundo y utiliza casi la misma estructura que si estuviéramos realizando una conexión a una base de datos específica desde cualquier lenguaje de programación, adicionándole por supuesto los datos de Hadoop:

Command Import

Por ejemplo:

Importando desde Mysql

$ sqoop import –connect jdbc:mysql://database.example.com/employees –username jacagudelo –password 678456

Importando desde SQl Server

$ sqoop import –driver com.microsoft.jdbc.sqlserver.SQLServerDriver –connect <connect-string> …

 

Seleccionando datos a importar

Generalmente Sqoop selecciona todos los campos de la tabla o vista origen a importar manteniendo el orden natural de los mismos.

$ sqoop import   –query ‘SELECT a.*, b.* FROM a JOIN b on (a.id == b.id) WHERE $CONDITIONS’ –split-by a.id /

–target-dir /user/foo/joinresults

 

Donde guarda los datos importados?

Por defecto Sqoop almacena los archivos de la importación en el directorio /foo dentro del directorio principal del sistema HDFS. Por ejemplo si el usuario utilizado es jacagudelo, Sqoop dejará los archivos de los resultados en la ruta /usr/jacagudelo/foo/(files).

Para ajustar este valor podemos hacer lo siguientes:

$ sqoop import –connnect <connect-str> –table emp –target-dir /dest

 

Export Sqoop

La herramienta de exportación exporta un conjunto de archivos de HDFS a un RDBMS. Los archivos dados como entrada a Sqoop contienen registros, que se llaman como filas en la tabla. Éstos se leen y analizan en un conjunto de registros y se delimitan con el delimitador especificado por el usuario.

Export Sqoop
Fuente: bigdatariding

Argumentos Comando Export

Command Export

Los principales parametros  utilizar son – – export-dir el cual especifica el directorio en HDFS que contiene los datos de los archivos y  – – table o – – call que identifican respectivamente la tabla destina o procedimiento almacenado a ejecutar.

Algo a tener en cuenta al momento de exportar es que Sqoop toma por defecto todas las columnas, pero podremos especificar columnas puntuales con el comando – – columns delimitándolas por comas. La advertencia aquí es que las colummnas que no se eincluyan en el proceso serán enviadas con valor NULL por defecto por lo que si la tabla destino no tiene configurado dicho permiso terminará generando error el proceso Sqoop.

Por ejemplo:

$ sqoop export –connect jdbc:mysql://db.example.com/foo –table retail –export-dir /results/bar_data

 

Sqoop por defecto realiza un append en la tabla de destino, en esencia realiza un insert sobre cada registro. Al igual que con los campos en el caso anterior, las tablas destino podrían tener Primary Key con los cual podrían generar error de duplicidad. Este modo está destinado principalmente a exportar registros a una nueva tabla vacía destinada a recibir estos resultados.

En caso de que el destino sea una tabla existente, debemos adicionar el parámetro – – update – key donde Sqoop realizará la modificación del conjunto de datos existente en la base de datos destino. Cada registro de entrada se tratará como una instrucción UPDATE que modifica una fila existente. La modificación de la fila se determina por el nombre de columna especificado como llave –update-key.

Si ejecutamos el comando:

$ sqoop export –table bar –update-key id  –connect jdbc:mysql://db.example.com/foo  –export-dir /results/bar_data

Internamente el Job de Sqoop realizará lo siguiente:

UPDATE foo SET msg=’this is a test’, bar=42 WHERE id=0;

UPDATE foo SET msg=’some more data’, bar=100 WHERE id=1;

 

Tipos de Destino en Hadoop

Una de las principales virtudes de Hadoop es que nos brinda una gran variedad de proyectos disponibles para usar de acuerdo a nuestras necesidades, para este caso puntual contamos con 3 proyectos específicos:

  • Hive: Como vimos en el artículo Hive nos proporciona un ambiente de Data Warehouse sobre Hadoop con su propio lenguae de consulta  muy similar al SQL, lo cual nos vendría conveniente al querer explorar nuestros datos.
  • HBase: HBase es una base de datos no relacional que nos permite realizar búsquedas rápidas de baja latencia en Hadoop. Agregar capacidades transaccionales a Hadoop, permitiendo a los usuarios realizar actualizaciones, inserciones y eliminaciones.
  • Accumulo: Aunque muy poco conocida pero no menos importante, tenemos esta base de datos NoSql de tipo Key-Column la cual podemos utilizar a nuestras necesidades.

 

Conclusión sobre Sqoop

Como acabamos de ver, Sqoop es una poderosa herramienta para poblar desde nuestras bases de datos relacionales y evolucionar nuestros proyectos analíticos, con sus comandos podemos trasladar nuestros datos, analizarlos mediante cualquier otra herramienta como Pig o Hive sobre Hadoop y volver a retornar el resultado a nuestras bases. Una funcionalidad muy práctica y eficaz para nuestros proyectos.


¿Qué te pareció Sqoop? ¿Consideras que debe ser tenido en cuenta en una solución Big Data con Hadoop?

 

Especialista en Business Intelligence con experiencia en herramientas como Pentaho, Microsoft y Microstrategy. Inmerso en Big Data, las Nuevas Tendencias, el Futbol y la Música.
SparkR

SparkR: R a Gran Escala!

Tiempo de Lectura: 4 minutos

 

Gracias al auge del Científico de Datos, escuchamos con frecuencia uno de los software más influyentes en la actualidad analítica y estadística llamado R. R nos permite entre muchísimas cosas trabajar con DataFrames de datos (realizar carga, tratamiento, análisis e interpretaciones) a fin de descubrir por ejemplo patrones, tendencias, índices o predicciones entre muchas más.

Actualmente si usas o consideras usar R debes tener presente que el análisis de los datos está limitado por la memoria que dispongas localmente y solo usa un core, así que trabajar con grandes cantidades de datos no es muy práctico.

Durante un tiempo me estuve preguntando: Podría distribuir los análisis (códigos) hechos en R sobre un cluster de datos para permitir el análisis de grandes cantidades de datos?

En cierta forma podría responder de distintas maneras.

Por ejemplo: “convierte tu código a Map Reduce y ejecútalo sobre Hadoop”, “carga tus datos, trátalos y analízalos con Pig”…pero estaríamos duplicando nuestro código ya hecho en R.

Así que me pareció muy interesante escribir un artículo donde se pueda responder ésta pregunta, y la respuesta es Si!, si podemos distribuir nuestros análisis (código) hechos en R, imagínate usar los más de 10.000 paquetes que tiene R en un ambiente escalable y distribuido!

La solución para convertir R a un ambiente escalable viene de la mano de la unión de R con uno de los proyectos más poderosos para el procesamiento de grandes cantidades de datos…Spark, el cual gracias a la comunidad de desarrolladores crearon un paquete llamado SparkR.

Que es SparkR?

SparkR es un paquete el cual está basado en un Data Frame distribuido el cual permite procesar datos estructurados o tratados (dplyr) con sintaxis familiar para los usuarios de R.

Por su parte Spark proporciona un motor de procesamiento distribuido, múltiples origines de datos y estructuras de datos en memoria. R, por el contrario, proporciona un entorno dinámico, interactivo, más de 10.000 paquetes de análisis a elegir y visualización.

SparkR combina las ventajas de Spark y R en un solo paquete

 

 Que es un SparkDataFrame?

Un SparkDataframe es una colección de datos organizados dentro de columnas. Conceptualmente esto es equivalente a una tabla en un RDBMS o un dataFrame en R, pero mucho más optimizados. Una de las ventajas es que puede construirse desde una amplia gama de fuentes tales como: archivos de datos estructurados, tablas en Hive, bases de datos externas, tramas de datos locales de paquetes de R existentes o incluso formatos emergentes populares como Avro.

Cómo funciona?

Para trabajar con SparkR debemos utilizar una sesión o sparkSession la cual permite conectar nuestro programa R con el cluster Spark. Para crear una sesión usamos simplemente la instrucción sparkR.session  pasándole algunas opciones como por ejemplo: el nombre de la aplicación o cualquier paquete que dependa directamente de spark, ect.
El método para crear los SparkDataFramesR desde distintos origines de datos es mediante el read.df.

Veamos un poco de acción creando un SparkDataFrames desde distinta fuentes:


# Creando un SparkDataFrame local
df <- as.DataFrame(faithful)

# Creando desde data source Avro
sparkR.session(sparkPackages = "com.databricks:spark-avro_2.11:3.0.0")

# Creando desde un JSON único
people <- read.df("./examples/src/main/resources/people.json", "json")

# Creando desde múltiples JSON
people <- read.json(c("./examples/src/main/resources/people.json",
"./examples/src/main/resources/people2.json"))

# Creando desde csv
df <- read.df(csvPath, "csv", header = "true", inferSchema = "true", na.strings = "NA")

# Creando desde Hive
sparkR.session()
sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

# Queries expresadas en HiveQL
results <- sql("FROM src SELECT key, value")

# Cómo obtener resultados de un SparkDataFrame
head(results)

Para más detalle sobre read.df encuentras la documentación oficial.

 

Mapeo de Tipos de datos entre R y spark

Cómo veremos a continuación existe una similitud entre los tipos de datos más similares y solo existe una pequeña variación:
data-type-mapping-between-r-and-spark

Arquitectura SparkR

La arquitectura de SparkR está compuesta por 2 componentes principales: Un Driver conformado por JVM y R el cual permite enviar programas R a un cluster Spark y por otro lado los distintos Worker’s los cuales permitirán ejecutar los programas R sobre Spark.

integrate-sparkr-and-r
Fuente: Integrate SparkR and R

Esto hace posible que las operaciones ejecutadas sobre el paquete SparkR automáticamente sean distribuidas a través de todos los nodos que hacen parte del cluster.

Una de las grandes ventajas de utilizar el JVM para invocar funciones de Spark desde R es satisfacer un enfoque flexible donde el administrador del cluster Yarn pueda soportar distintas plataformas como Windows, Linux, etc.

Ventajas que encontramos

  • Operaciones con sparkDataFrames como selección de registros y columnas, agrupación, agregación, entre otras.
  • Operaciones que pueden ser aplicadas directamente sobre columnas tales como el uso de funciones aritméticas.
  • Aplicación de funciones definidas por los usuarios conocidas como UDF.
  • Ejecuciones de funciones distribuidas usando spark.lapply.
  • Ejecución de consultas SQL desde sparkR.

 

En resumen, SparkR proporciona una interfaz R sobre Apache Spark permitiéndoles a los usuarios realizar análisis a gran escala. Actualmente SparkR se encuentra en la versión 2.1.0. Por supuesto todas sus funcionalidades son de código abierto y puedes descargarlo desde aquí http://spark.apache.org, aquí la documentación oficial http://spark.apache.org/docs/latest/sparkr.html

 

Conclusión sobre SparkR

Aunque muchos de seguro hemos usado R tal vez no teníamos presente este paquete, las capacidades de poder procesar datos distribuidos y en grandes cantidades nos crea un abanico de oportunidades únicas en nuestro campo, espero que te allá parecido interesante éste artículo!

 


¿Qué te pareció SparkR? ¿Ya habías escuchado hablar de R a gran escala? ¿Te gustaría probarlo…cómo lo planearías?

Especialista en Business Intelligence con experiencia en herramientas como Pentaho, Microsoft y Microstrategy. Inmerso en Big Data, las Nuevas Tendencias, el Futbol y la Música.
Hive_Hadoop

Hive: SQL y Data Warehouse en Hadoop

Tiempo de Lectura: 5 minutos

 

Gracias al auge del procesamiento de grandes bancos de datos que demandan hoy en día las organizaciones, es normal imaginarse si en éste nuevo mundo escalable y distribuido de Hadoop es posible realizar consultas SQL. Hive es una solución de Hadoop la cual te solucionará éste tipo de preguntas y muchas más.

 

 

Que es Hive?

Uno de los grandes desafíos actualmente es disponer de herramientas que permitan poder explotar grandes cantidades de datos fácilmente y sin generar mucho impacto en aprendizaje como por ejemplo con Pig.

Precisamente Hive es un framework que nos permite manipular fácilmente grandes cantidades de datos debido a que posee su propio leguaje de consultas llamado HQL (HiveQL) basado en SQL. HQL convierte las consultas a trabajos Map Reduce podemos realizar consultas sobre datos almacenados en un cluster Hadoop.

De la mano con el fácil acceso a consultas, Hive provee un entorno de Data Warehouse sobre ambientes distribuidos el cual te permite crear la estructura de las tablas que necesitas.

Hive es particularmente útil para aplicaciones de data warehouse, donde los datos relativamente estáticos son analizados, no se requieren respuesta rápidas y los datos no cambian rápidamente. Debido a que hadoop está diseñado con HDFS representa una limitación para Hive, no soporta update (refresh), inserción o borrado a nivel de registros.

Como hemos visto, hadoop está orientado a procesamiento batch por lo que las consultas de Hive tienen una mayor latencia, aunque sean para conjuntos de pocos datos. Además Hive no posee transacciones así que es más una herramienta OLAP.

Cómo funciona Hive?

Cuando implementamos un algoritmo como Word Count en Hadoop usando Hadoop Java API, hay más detalle de bajo nivel de los que podríamos manejar fácil e intuitivamente. Es un trabajo apropiado para un desarrollador Java experimentado. De hecho, esos detalles de bajo nivel son algo repetitivos entre un trabajo y otro, como enganchar mappers y reducer a ciertos datos, filtrar determinados datos y realizar uniones SQL a ciertos conjuntos.

En este punto es donde entra Hive, además de proveer un modelo de programación familiar para los que sabemos SQL, también elimina muchos trucos de Java!. Es por eso que Hive es tan importante para Hadoop ya que permite completar muchos trabajos ahorrando mucho esfuerzo.

Hive proporciona una funcionalidad básica de SQL estándar mediante HQL. Una vez escrita el query es traducida a un proceso MapReduce que será ejecutado sobre el clúster HDFS. Para nosotros esto será transparente, ahora nos debemos centrar en los datos disponibles y de la información que queremos sacar. La sintaxis básica que acepta Hive comprende lo siguiente:

  • CREATE/ALTER/DROP TABLE/DATABASE
  • INSERT INTO SELECT
  • FROM … JOIN … ON WHERE
  • GROUP BY
  • HAVING
  • ORDER BY
  • LIMIT

Tipos de datos en Hive

Precisamente unos de los fuertes de Hive es permitirte procesar y analizar mucha información y de diferentes tipos de datos, que por cierto son muy similar a un motor de base de datos:

Tipos de datos simples

  • TINYINT:1 byte para números enteros con signo.
  • SMALLINT:2 bytes para números enteros con signo.
  • INT:4 bytes para números enteros con signo.
  • BIGINT:8 bytes para números enteros con signo.
  • FLOAT:4 bytes para números en coma flotante.
  • DOUBLE:8 bytes para números en coma flotante.
  • TIMESTAMP:almacenar fecha y hora
  • DATE:almacenar fechas
  • STRING
  • VARCHAR
  • CHAR
  • BOOLEAN
  • BINARY

 Tipos de datos complejos

Muy útiles para almacenar colecciones de datos de tipos simples.

  • ARRAY
  • MAP
  • STRUCT
  • UNIONTYPE

Características de Hive

  • Provee facilidad de data warehouse sobre un cluster Hadoop
  • Está diseñado para OLAP
  • Provee un lenguaje de consultas llamado HQL (Hive QL), muy similar al SQL, mediante el cual se pueden escribir fácilmente tareas MapReduce y explotar los datos guardados en el cluster
  • Puede utilizar Spark para su ejecución
  • Al estar montado en Hadoop utiliza de igualmodo el HDFS para su almacenamiento
  • Permite manejar datos estructurados con tipos de datos ricos tales como (structs, lists y maps)
  • Al igual que Pig, permite el uso de scripts embebidos para extensibilidad y aplicaciones no estándares
  • Utiliza el metadata para permitir el descubrimiento de datos y optimización

Hive vs Pig

Supongamos que tenemos varias fuentes de datos de entrada y necesitamos realizar un número complejo de transformaciones para generar una salida. Usando Hive es posible realizar realizar lo anterior utilizando querys andadas similares a las de SQL, pero  en algún punto será necesario utilizar tablas temporales.

Pig, en cambio, es un lenguaje de flujo de datos, y no un lenguaje de consultas. En Pig es común escribir una serie de declaraciones que definen relaciones a partir de otras relaciones, donde cada nueva relación va realizando una transformación a los datos. Pig interpreta éstas declaraciones y a partir de ellas crea rutinas MapReduce para efectuar dichas transformaciones, hasta llegar al resultado deseado. En este sentido es que se dice que Pig es un lenguaje de flujo de datos.

Una desventaja de Pig es que utiliza un lenguaje especial que no está basado en SQL, esto es porque no está diseñado como un lenguaje de consulta pero a su vez nos dice que no es el indicado para aplicaciones SQL y que los usuarios experimentados en SQL tendrán una curva de aprendizaje Pig mucho más grande.

Es importante enfatizar que Pig  y Hive no son excluyentes. Es muy común para los equipos de científicos y arquitectos de datos utilizar una combinación óptima de Pig y Hive, seleccionando la herramienta adecuada para cada tarea.

Hive vs HBase

Como mencionábamos anteriormente Hive no provee muchas de las características de una base de datos, como por ejemplo, refrescos a nivel de filas, tiempos rápidos de consultas, ya transacciones. ¿Pero qué sucede si, dados los requerimientos necesitamos de éstas características? Aquí entra HBase como una alternativa muy interesante.

HBase es un repositorio distribuido y escalable de datos que soporta todas las características mencionadas anteriormente. Estás inspirado en Big Table de Google, pero no implementa todas sus características. Una de sus propiedades principales es que el almacenamiento es orientado a columnas, donde las columnas son organizadas en familias (Column Family). Estas familias de columnas son almacenadas físicamente juntas  en un cluster distribuido, lo que garantiza que la lectura/escritura sean mucho más rápidas que los tiempos típicos de SQL.

¿Pero cuál es la relación entre HBase y Hadoop? HBase puede usar HDFS, pero a su vez HBase no provee un lenguaje de consultas como SQL, pero hoy día Hive está completamente integrado a HBase, lo que resulta una combinación muy potente para ciertas aplicaciones.

Tipos de aplicaciones Hive

  • Sumarización
    • Ej: agregaciones diarias de impresiones y clicks
  • Métricas complejas de involucramiento de los usuarios
  • Análisis Ad Hoc
  • Data Mining
  • Detección de Spam
  • Optimización de publicidades

Conclusión

No queda duda que es uno de esos proyectos que debes tener presente a la hora de implementar una solución Hadoop, por supuesto una vez analizados los requerimientos iniciales pero si en algún punto comprende el SQL no queda la menor duda, además ten presente lo conveniente que vendría para ti combinar Hive con otro proyecto como se mencionó anteriormente, explotar todo su potencial te facilitara a ti y a los analista muchas tareas!

 


Ya habías escuchado sobre Hive? Consideras que una parte fundamental en soluciones Big Data es tener la posibilidad de explorar amigablemente los datos? Combinarías algún otro proyecto con Hive?

Haz parte de mi Newsletter
Únete y haz parte como otros visitantes que reciben semanalmente mi newsletter con noticias y artículos actualizados sobre Business Intelligence y Big Data.
Al igual que tú, no tolero el SPAM. Tu dirección de email no será compartida.
Especialista en Business Intelligence con experiencia en herramientas como Pentaho, Microsoft y Microstrategy. Inmerso en Big Data, las Nuevas Tendencias, el Futbol y la Música.