Gracias al auge del procesamiento de grandes bancos de datos que demandan hoy en día las organizaciones, es normal imaginarse si en éste nuevo mundo escalable y distribuido de Hadoop es posible realizar consultas SQL. Hive es una solución de Hadoop la cual te solucionará éste tipo de preguntas y muchas más.
Tabla de Contenidos
Que es Hive?
Uno de los grandes desafíos actualmente es disponer de herramientas que permitan poder explotar grandes cantidades de datos fácilmente y sin generar mucho impacto en aprendizaje como por ejemplo con Pig.
Precisamente Hive es un framework que nos permite manipular fácilmente grandes cantidades de datos debido a que posee su propio leguaje de consultas llamado HQL (HiveQL) basado en SQL. HQL convierte las consultas a trabajos Map Reduce podemos realizar consultas sobre datos almacenados en un cluster Hadoop.
De la mano con el fácil acceso a consultas, Hive provee un entorno de Data Warehouse sobre ambientes distribuidos el cual te permite crear la estructura de las tablas que necesitas.
Hive es particularmente útil para aplicaciones de data warehouse, donde los datos relativamente estáticos son analizados, no se requieren respuesta rápidas y los datos no cambian rápidamente. Debido a que hadoop está diseñado con HDFS representa una limitación para Hive, no soporta update (refresh), inserción o borrado a nivel de registros.
Como hemos visto, hadoop está orientado a procesamiento batch por lo que las consultas de Hive tienen una mayor latencia, aunque sean para conjuntos de pocos datos. Además Hive no posee transacciones así que es más una herramienta OLAP.
Cómo funciona Hive?
Cuando implementamos un algoritmo como Word Count en Hadoop usando Hadoop Java API, hay más detalle de bajo nivel de los que podríamos manejar fácil e intuitivamente. Es un trabajo apropiado para un desarrollador Java experimentado. De hecho, esos detalles de bajo nivel son algo repetitivos entre un trabajo y otro, como enganchar mappers y reducer a ciertos datos, filtrar determinados datos y realizar uniones SQL a ciertos conjuntos.
En este punto es donde entra Hive, además de proveer un modelo de programación familiar para los que sabemos SQL, también elimina muchos trucos de Java!. Es por eso que Hive es tan importante para Hadoop ya que permite completar muchos trabajos ahorrando mucho esfuerzo.
Hive proporciona una funcionalidad básica de SQL estándar mediante HQL. Una vez escrita el query es traducida a un proceso MapReduce que será ejecutado sobre el clúster HDFS. Para nosotros esto será transparente, ahora nos debemos centrar en los datos disponibles y de la información que queremos sacar. La sintaxis básica que acepta Hive comprende lo siguiente:
- CREATE/ALTER/DROP TABLE/DATABASE
- INSERT INTO SELECT
- FROM … JOIN … ON WHERE
- GROUP BY
- HAVING
- ORDER BY
- LIMIT
Tipos de datos en Hive
Precisamente unos de los fuertes de Hive es permitirte procesar y analizar mucha información y de diferentes tipos de datos, que por cierto son muy similar a un motor de base de datos:
Tipos de datos simples
- TINYINT:1 byte para números enteros con signo.
- SMALLINT:2 bytes para números enteros con signo.
- INT:4 bytes para números enteros con signo.
- BIGINT:8 bytes para números enteros con signo.
- FLOAT:4 bytes para números en coma flotante.
- DOUBLE:8 bytes para números en coma flotante.
- TIMESTAMP:almacenar fecha y hora
- DATE:almacenar fechas
- STRING
- VARCHAR
- CHAR
- BOOLEAN
- BINARY
Tipos de datos complejos
Muy útiles para almacenar colecciones de datos de tipos simples.
- ARRAY
- MAP
- STRUCT
- UNIONTYPE
Características de Hive
- Provee facilidad de data warehouse sobre un cluster Hadoop
- Está diseñado para OLAP
- Provee un lenguaje de consultas llamado HQL (Hive QL), muy similar al SQL, mediante el cual se pueden escribir fácilmente tareas MapReduce y explotar los datos guardados en el cluster
- Puede utilizar Spark para su ejecución
- Al estar montado en Hadoop utiliza de igualmodo el HDFS para su almacenamiento
- Permite manejar datos estructurados con tipos de datos ricos tales como (structs, lists y maps)
- Al igual que Pig, permite el uso de scripts embebidos para extensibilidad y aplicaciones no estándares
- Utiliza el metadata para permitir el descubrimiento de datos y optimización
Hive vs Pig
Supongamos que tenemos varias fuentes de datos de entrada y necesitamos realizar un número complejo de transformaciones para generar una salida. Usando Hive es posible realizar realizar lo anterior utilizando querys andadas similares a las de SQL, pero en algún punto será necesario utilizar tablas temporales.
Pig, en cambio, es un lenguaje de flujo de datos, y no un lenguaje de consultas. En Pig es común escribir una serie de declaraciones que definen relaciones a partir de otras relaciones, donde cada nueva relación va realizando una transformación a los datos. Pig interpreta éstas declaraciones y a partir de ellas crea rutinas MapReduce para efectuar dichas transformaciones, hasta llegar al resultado deseado. En este sentido es que se dice que Pig es un lenguaje de flujo de datos.
Una desventaja de Pig es que utiliza un lenguaje especial que no está basado en SQL, esto es porque no está diseñado como un lenguaje de consulta pero a su vez nos dice que no es el indicado para aplicaciones SQL y que los usuarios experimentados en SQL tendrán una curva de aprendizaje Pig mucho más grande.
Es importante enfatizar que Pig y Hive no son excluyentes. Es muy común para los equipos de científicos y arquitectos de datos utilizar una combinación óptima de Pig y Hive, seleccionando la herramienta adecuada para cada tarea.
Hive vs HBase
Como mencionábamos anteriormente Hive no provee muchas de las características de una base de datos, como por ejemplo, refrescos a nivel de filas, tiempos rápidos de consultas, ya transacciones. ¿Pero qué sucede si, dados los requerimientos necesitamos de éstas características? Aquí entra HBase como una alternativa muy interesante.
HBase es un repositorio distribuido y escalable de datos que soporta todas las características mencionadas anteriormente. Estás inspirado en Big Table de Google, pero no implementa todas sus características. Una de sus propiedades principales es que el almacenamiento es orientado a columnas, donde las columnas son organizadas en familias (Column Family). Estas familias de columnas son almacenadas físicamente juntas en un cluster distribuido, lo que garantiza que la lectura/escritura sean mucho más rápidas que los tiempos típicos de SQL.
¿Pero cuál es la relación entre HBase y Hadoop? HBase puede usar HDFS, pero a su vez HBase no provee un lenguaje de consultas como SQL, pero hoy día Hive está completamente integrado a HBase, lo que resulta una combinación muy potente para ciertas aplicaciones.
Tipos de aplicaciones Hive
- Sumarización
- Ej: agregaciones diarias de impresiones y clicks
- Métricas complejas de involucramiento de los usuarios
- Análisis Ad Hoc
- Data Mining
- Detección de Spam
- Optimización de publicidades
Conclusión
No queda duda que es uno de esos proyectos que debes tener presente a la hora de implementar una solución Hadoop, por supuesto una vez analizados los requerimientos iniciales pero si en algún punto comprende el SQL no queda la menor duda, además ten presente lo conveniente que vendría para ti combinar Hive con otro proyecto como se mencionó anteriormente, explotar todo su potencial te facilitara a ti y a los analista muchas tareas!
Ya habías escuchado sobre Hive? Consideras que una parte fundamental en soluciones Big Data es tener la posibilidad de explorar amigablemente los datos? Combinarías algún otro proyecto con Hive?