Skip to main content
Las 6V del Big Data

Las 6V del Big Data

En este artículo abordaré los principales aspectos del Big Data, generalmente denominadas como Las 6V del Big Data, mostrando en modo comparativo contra Business Intelligence Tradicional de manera que podamos visualizar fácilmente los beneficios que nos proporciona.

Tal como nos dimos cuenta en el artículo anterior, el Big Data es la tendencia principal del BI hoy en día.
Así que, porque no dedicarle un artículo completo?

 

 

Que es Big Data?

Cuando hablamos de Big Data, nos referimos específicamente  a un conjunto de técnicas y tecnologías que nos permiten almacenar, clasificar y analizar grandes volúmenes de datos, solucionando algunas limitantes que sufren actualmente nuestras plataformas de Business Intelligence Tradicional, entre otras la gestión y administración de nuevas fuentes de información.

Desde el contexto del BI Tradicional, estamos acostumbrados a tratar datos con crecimiento  diario o mensual no muy variado, pero siempre con el mismo tipo de dato (Estructurado y definido), las mismas fuentes (Tales como: Archivos Excel, TXT, ODS o Aplicaciones empresariales relacionales, entre otros), incluso contando con el mismo rango de tiempo de carga aprox. de 4 a 7 horas diarias…pero que pasaría, si nuestra organización  quisiera contar con información en tiempo real de lo que opinan sus clientes sobre un producto o servicio específico?

Vamos a un ejemplo de actualidad, la manera más ideal de obtener dicha información es mediante la medición en tiempo real de nuestras redes sociales.

Por ejemplo, todos hemos visto como las programas de televisión sacan provecho de esto, en particular con su programación en vivo…para un partido de futbol crean un Hashtag #FutbolParaTodos y mientras transmiten también muestran la cantidad de tweets o interacciones del público.

Ejemplo del uso de HashTag en Big Data
Ejemplo del uso de HashTag en Big Data

Ahora, volviendo a nuestra pregunta anterior…si nuestra organización o programadora de televisión quisiera incluir éste dato particular como métrica y así medir su impacto en Twitter, como lo podría soportar nuestra plataforma BI Tradicional?

Analícemelo como nueva fuente de datos:

Tipos de Datos: Claramente sería un nuevo tipo de dato, pues nuestra fuente de información que en este caso sería Twitter nos proporcionaría tweets en su propio formato, el cual en este caso serían documentos en formato JSON (JavaScript Object Notation).

Fuente de Datos: Estamos hablando de una fuente externa la cual no controlamos, estos datos no serían estructurados y ni tampoco cumplirían en primera instancia nuestros aspectos de meta data, ni análisis de información estandarizados por lo tanto esto conlleva a un gran trabajo de transformación.

Tiempo de Carga: Los flujos de datos deberán tomarse con lapsos de tiempo mínimos ya que como todos sabemos pueden haber miles de tweets por segundo, si nuestra solución tradicional  demora en su carga diaria mínimo 4 Horas…realmente lo podríamos soportar?

Cantidad de Datos: Todos sabemos que pueden haber cientos de miles de tweets, entonces lo más probable es que la cantidad de nuevos datos que obtendremos para nuestra métrica va a ser considerablemente grande.

Ahora, nuestra solución BI Tradicional cuenta con una base de datos transaccional capaz de soportar cada uno de estos aspectos?…así que es momento de  preguntarnos:

Nuestra base de datos transaccional soportará grandes volúmenes de datos?
Nuestra base de datos transaccional soportará grandes inserciones por segundo de datos?
Nuestra base de datos transaccional soportará este nuevo tipo de dato?
Nuestra base de datos transaccional podrá convivir con variedad de datos?

Si bien nuestra base de datos transaccional podría responda al menos a una de las preguntas anteriores, para cumplir nuestro objetivo debemos responderlas todas y ciertamente no lo estamos haciendo.

Para tal efecto y para solucionar estas limitantes fue creado el Big Data, que si bien no reemplazará nuestra solución BI Tradicional…si la potenciará o evolucionará con nuevos datos.

Definiendo Las 6V del Big Data

Las 6V del Big Data
Las 6V del Big Data

1. Volumen

Refiere a la capacidad de almacenar grandes bancos de información.

Nuestras soluciones de BI Tradicional contienen un volumen de datos habitual y constante, llegando a tamaños de almacenamiento no mayores a los gigabytes.

Conforme se genera la necesidad de incluir nuevas fuentes emergentes la cantidad de datos crece a un ritmo abismal y nuestro Data Warehouse debe ser capaz de soportar el almacenamiento y el procesamiento de dichos datos para posteriores análisis.

Existen distintas fuentes de datos emergentes que generan grandes cantidades de información y en muy corto tiempo, por supuesto superan considerablemente los tamaños básicos de almacenamiento de soluciones BI Tradicional. (Imagina el típico ejemplo de la cantidad inmensa de tweets que se generan por segundo) .

Podríamos considerar nuevas fuentes de datos emergentes en BI: las redes sociales, sensores de movimiento, sensores de infraestructuras, páginas web, blog, aplicaciones, georeferenciación…entre otros.

2. Velocidad

Las nuevas fuentes emergentes, al igual que generan gran cantidad de datos…también generan datos a gran velocidad y esto es muy visible con nuestro ejemplo actual: muchos tweets o información de redes sociales por segundo o incluso imágenes de vídeo de una transmisión de Streaming de algún evento particular.

Todos estos datos pueden ser esenciales a la hora de tomar una decisión, en el caso de las redes sociales como bien sabemos poder identificar lo que se dice, se piensa o se cree de nuestra organización, por otro lado en las imágenes del evento podríamos validar en tiempo real los gestos de las persona y saber si les gusta o no lo que están percibiendo.

Así púes nuestros DW no soportarían tan grandes flujos de velocidad constante.

3. Variedad

Nuestros DW actualmente cuentan con datos estructurados, datos definidos para la información de nuestros clientes, productos y demás, cuya finalidad nos permite incluir nuevas fuentes adaptadas fácilmente. Pero con las nuevas fuentes disponibles empezamos a encontrar tipos de datos que antes no pensábamos fuera posible contar, entre los que podríamos encontrar: Imágenes o Fotografías, Vídeo, Texto, XML, JSON, Clave-Valor, Audio, Señales de Sensores, Estados de Tiempo, Blog, HTML o incluso datos del Genoma humano…

Las bases de datos transaccionales que usamos en nuestro DW bien podrían almacenar estos tipos de datos, pero no sería de gran ayuda ya que no son óptimas y no nos permitiría extraer información de valor.

Las tecnologías de almacenamiento que usamos actualmente no cuentan con capacidades ni la disposición de alojar estos tipos de datos, por ende es necesario contemplar base de datos que nos brinde flexibilidad y diversidad en este aspecto.

4. Veracidad

Si bien nuestras fuentes existentes han pasado por un proceso de análisis y validación hasta definirse como información de valor para la toma de decisiones, de la misma manera debe suceder para las nuevas fuentes emergentes.

La veracidad o calidad del dato está definida por la elección de los registros de datos que verdaderamente aporten valor, directamente relacionada con la variedad ya que al tener distintos tipo de datos debemos implementar distintos modelos que satisfagan esta condición, es necesario contar con personal que ayude a filtrar y a mantener los datos completamente limpios y tratados para nuestra estrategia.

Al igual que el BI Tradicional debemos contemplar desde el inicio que nuestra finalidad es contar con bancos de datos que una vez tratados y analizados van a generar valor al negocio.

Está bien considerar que éste podría ser el primer escalón, pero no debemos olvidar que está directamente relacionada a los tipos de datos variables que vamos a contemplar.

Haz parte de mi Newsletter
I agree to have my personal information transfered to MailChimp ( more information )
Únete y haz parte como otros visitantes que reciben semanalmente mi newsletter con noticias y artículos actualizados sobre Business Intelligence y Big Data.
Al igual que tú, no tolero el SPAM. Tu dirección de email no será compartida.

5. Valor

Llegados a este punto, es bueno considerar que a pesar de que hemos incluido nuevas fuentes de datos, hemos contemplando el uso de nuevas tecnologías y que hemos generado valor con la inclusión de nuevas métricas y KPI a nuestra plataforma de BI Tradicional, sería interesante  el pensar explotar y generar mucho más provecho a esta información.

Utilizando ciertamente técnicas, algoritmos y desarrollos que permitan predecir con un mayor peso de los datos algunas tomas de decisiones como por ejemplo: predecir comportamientos de nuestros clientes, el momento exacto para crear un nuevo producto o incluso identificar fraudes transaccionales, todo esto es posible si contamos con personas o herramientas que ayuden a la organización a descubrir lo que no sabe, obtener conocimiento predictivo y comunicar historias de datos relevante, generan mucha más confianza en la toma de decisiones desde los datos.

Especialmente estamos hablando de personas con perfil de Científicos de Datos.

6. Visibilidad

Hasta este punto todas y cada una de las V’s se complementan, contando con un gran banco de datos que nos provee información confiable, variable, actualizada y además nos está generando un valor importante frente a nuestra competencia, también es necesario empezar a contar con herramientas de visualización que permitan una manera fácil de leer  nuestros nuevos análisis, que bien podrían ser estadísticos y que muy seguramente comprometería su desarrollo con nuestras herramientas de reporting que contamos actualmente.

Porque crees que tantas empresa de BI actualmente se enfocan en presenta un manera más fácil y flexible de presentar la información?

Para reflejar un poco ese aspecto, te comparto una de mis presentaciones con el software R donde represento de distintas formas de visualizar la oportunidad de tomar la decisión de renovar un servicio para una población especifica después de haber integrado distintas fuentes.

Visualización Analítica R en Big Data
Ejemplo de Visualización Analítica en R para Big Data

 

Espero que sea de tu agrado mi pequeña perspectiva del Big Data frente a la decisión de evolucionar nuestras plataformas BI Tradicional con su integración.

 

Qué opinas de las 6V del Big Data? Consideras que falta una nueva V? Crees que aún no se debería de considerar alguna de las V expresadas anteriormente?

John Alexander

Especialista en Business Intelligence con experiencia en herramientas como Pentaho, Microsoft y Microstrategy. Inmerso en Big Data, las Nuevas Tendencias, el Futbol y la Música.