Infraestructura Archives - Blog de John A. Carvajal

La infraestructura en Big Data es uno de los aspectos más importantes a tener en cuenta a la hora de querer implementar nuestros proyectos, tener definida una infraestructura estable que sea capaz de suplir todas las necesidades y a su vez permita crecer conforme sea necesario y avance el proyecto es primordial, ya que de esto dependerá nuestra capacidad futura de análisis y acción de los sistemas que soportará.

1. Big Data es más que Hadoop

Actualmente se encuentra directamente relacionado Hadoop con el mundo Big Data, pero hay que tener presente que no siempre lo necesitamos y en efecto es necesario realizar una análisis de nuestras necesidades con antelación. Hadoop es un sistema de archivos diseñado para distribuir datos entre cientos o miles de nodos de procesamiento y entre otras cosas nos permite el tratamiento de datos no estructurado pero No es una base de datos, ésto debe estar sumamente claro.

2. Hive e Impala llevan las bases de datos relacionales a Hadoop

Si decidiste implementar Hadoop, es posible que algunos de tus datos sean parte estructurados. Si quieres darle un poco de orden a tu plataforma Hadoop entonces Hive es lo que necesitas. Hive es una herramienta la cual te permite realizar consultas muy parecidas al SQL, facilita la creación, consulta y administración de grandes volúmenes de datos almacenados en Hadoop.

Por el contrario, si tus datos se ajustan fácilmente dentro de una base de datos estructurada, Impala es una base de datos diseñada para vivir en Hadoop permitiendo además el uso de comandos Hive desarrolados previamente.

Puedes combinar facilmente Hadoop, Hive e Impala pues todos son proyectos Apache.

3. Spark es procesamiento en Big Data

Hasta ahora, hemos estado hablando de almacenar y organizar datos. Pero ¿qué pasa cuando quieres hacer algo con los datos? Aquí es cuando se necesita un motor analítico y de procesamiento como Spark. Spark es otro proyecto de Apache, y se encuentra en un montón de productos de código abierto y comercial que llevará los datos a otro nivel, combinando datos de tu DW con almacenamiento distribuido, bases de datos relacionales y muchos más.

4. Puedes hacer SQL en Big Data

Mucha gente sabe cómo construir bases de datos SQL y escribir consultas SQL. Esa experiencia no tiene que perderse cuando el campo de juego es Big Data. Presto es un motor de consulta SQL de código abierto que permite a los científicos de datos utilizar consultas SQL para interrogar bases de datos que viven en todo, desde Hive hasta sistemas de gestión de bases de datos comerciales. Es utilizado por pequeñas empresas como Facebook para consultas interactivas(Ya te imaginarás su gran poder). Piensa en Presto como una herramienta para hacer consultas ad hoc e interactivas en enormes conjuntos de datos.

5. Almacenamiento Online

Hay algunas tareas dentro en Big Data que implican el cambio rápido de datos. A veces, se trata de datos que se agregan a una base de datos regular y a veces son datos que se cambian a través del análisis. En cualquier caso, si los datos se escriben con tanta frecuencia como se están leyendo, entonces es necesario disponer de los datos localmente yonline. Si es posible, también podrías considerar el almacenamiento en estado sólido, porque eso acelerará considerablemente las cosas.

6. Almacenamiento Cloud

Cuando el análisis se lleva a cabo en bases de datos muy grandes y agregadas para las que están construyendo grandes rutinas orientadas por lotes, la nube puede ser perfecta. Ésta nos permite fácilmente agregar y transferir los datos a la nube, ejecutar análisis y a continuación destruir la instancia. Es exactamente el tipo de respuesta a demanda elástica que la nube nos brinda. Las operaciones no se verán afectadas significativamente por los problemas de latencia que Internet pudiera producir. Cuando se combina el análisis en tiempo real que se lleva a cabo en los sistemas dedicados locales con profundas analíticas que se ejecutan en la nube, se está acercando a la realización de todo el potencial de una gran infraestructura de datos.

7. No olvidar la Visualización

Al igual que se encuentra dentro de la nuevas tendencias del BI, La visualización en Big Data es muy importante, debido a que es necesario saber representar muchas fuentes de datos de manera que tenga sentido para las personas y por lo tanto la visualización de datos debe ser considerada como parte crítica de la infraestructura.

Afortunadamente, existen distintas maneras de hacer que ocurran grandes visualizaciones, desde bibliotecas de JavaScript, hasta paquetes de visualización comerciales o servicios en línea. ¿Cuál es el punto más importante? Escoja un puñado de ellos, pruébelos y permita que los usuarios los prueben. Así encontrará que la visualización sólida es la mejor manera de hacer su gran análisis de datos tan valioso como sea posible.
Lo anterior ha sido una recopilación de un excelente artículo el cual podrás encontrar aquí, espero que te ayude a aterrizar un poco los aspectos que debes tener en cuenta antes de implementar tu infraestructura Big Data.

Considerarías adicionar otra clave? crees que las claves presentadas anteriormente son suficientes?

Etiqueta: Infraestructura

7 Claves para construir una infraestructura Big Data con éxito