Skip to main content
SparkR

SparkR: R a Gran Escala!

Tiempo de Lectura: 4 minutos

 

Gracias al auge del Científico de Datos, escuchamos con frecuencia uno de los software más influyentes en la actualidad analítica y estadística llamado R. R nos permite entre muchísimas cosas trabajar con DataFrames de datos (realizar carga, tratamiento, análisis e interpretaciones) a fin de descubrir por ejemplo patrones, tendencias, índices o predicciones entre muchas más.

Actualmente si usas o consideras usar R debes tener presente que el análisis de los datos está limitado por la memoria que dispongas localmente y solo usa un core, así que trabajar con grandes cantidades de datos no es muy práctico.

Durante un tiempo me estuve preguntando: Podría distribuir los análisis (códigos) hechos en R sobre un cluster de datos para permitir el análisis de grandes cantidades de datos?

En cierta forma podría responder de distintas maneras.

Por ejemplo: “convierte tu código a Map Reduce y ejecútalo sobre Hadoop”, “carga tus datos, trátalos y analízalos con Pig”…pero estaríamos duplicando nuestro código ya hecho en R.

Así que me pareció muy interesante escribir un artículo donde se pueda responder ésta pregunta, y la respuesta es Si!, si podemos distribuir nuestros análisis (código) hechos en R, imagínate usar los más de 10.000 paquetes que tiene R en un ambiente escalable y distribuido!

La solución para convertir R a un ambiente escalable viene de la mano de la unión de R con uno de los proyectos más poderosos para el procesamiento de grandes cantidades de datos…Spark, el cual gracias a la comunidad de desarrolladores crearon un paquete llamado SparkR.

Que es SparkR?

SparkR es un paquete el cual está basado en un Data Frame distribuido el cual permite procesar datos estructurados o tratados (dplyr) con sintaxis familiar para los usuarios de R.

Por su parte Spark proporciona un motor de procesamiento distribuido, múltiples origines de datos y estructuras de datos en memoria. R, por el contrario, proporciona un entorno dinámico, interactivo, más de 10.000 paquetes de análisis a elegir y visualización.

SparkR combina las ventajas de Spark y R en un solo paquete

 

 Que es un SparkDataFrame?

Un SparkDataframe es una colección de datos organizados dentro de columnas. Conceptualmente esto es equivalente a una tabla en un RDBMS o un dataFrame en R, pero mucho más optimizados. Una de las ventajas es que puede construirse desde una amplia gama de fuentes tales como: archivos de datos estructurados, tablas en Hive, bases de datos externas, tramas de datos locales de paquetes de R existentes o incluso formatos emergentes populares como Avro.

Cómo funciona?

Para trabajar con SparkR debemos utilizar una sesión o sparkSession la cual permite conectar nuestro programa R con el cluster Spark. Para crear una sesión usamos simplemente la instrucción sparkR.session  pasándole algunas opciones como por ejemplo: el nombre de la aplicación o cualquier paquete que dependa directamente de spark, ect.
El método para crear los SparkDataFramesR desde distintos origines de datos es mediante el read.df.

Veamos un poco de acción creando un SparkDataFrames desde distinta fuentes:


# Creando un SparkDataFrame local
df <- as.DataFrame(faithful)

# Creando desde data source Avro
sparkR.session(sparkPackages = "com.databricks:spark-avro_2.11:3.0.0")

# Creando desde un JSON único
people <- read.df("./examples/src/main/resources/people.json", "json")

# Creando desde múltiples JSON
people <- read.json(c("./examples/src/main/resources/people.json",
"./examples/src/main/resources/people2.json"))

# Creando desde csv
df <- read.df(csvPath, "csv", header = "true", inferSchema = "true", na.strings = "NA")

# Creando desde Hive
sparkR.session()
sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

# Queries expresadas en HiveQL
results <- sql("FROM src SELECT key, value")

# Cómo obtener resultados de un SparkDataFrame
head(results)

Para más detalle sobre read.df encuentras la documentación oficial.

 

Mapeo de Tipos de datos entre R y spark

Cómo veremos a continuación existe una similitud entre los tipos de datos más similares y solo existe una pequeña variación:
data-type-mapping-between-r-and-spark

Arquitectura SparkR

La arquitectura de SparkR está compuesta por 2 componentes principales: Un Driver conformado por JVM y R el cual permite enviar programas R a un cluster Spark y por otro lado los distintos Worker’s los cuales permitirán ejecutar los programas R sobre Spark.

integrate-sparkr-and-r
Fuente: Integrate SparkR and R

Esto hace posible que las operaciones ejecutadas sobre el paquete SparkR automáticamente sean distribuidas a través de todos los nodos que hacen parte del cluster.

Una de las grandes ventajas de utilizar el JVM para invocar funciones de Spark desde R es satisfacer un enfoque flexible donde el administrador del cluster Yarn pueda soportar distintas plataformas como Windows, Linux, etc.

Ventajas que encontramos

  • Operaciones con sparkDataFrames como selección de registros y columnas, agrupación, agregación, entre otras.
  • Operaciones que pueden ser aplicadas directamente sobre columnas tales como el uso de funciones aritméticas.
  • Aplicación de funciones definidas por los usuarios conocidas como UDF.
  • Ejecuciones de funciones distribuidas usando spark.lapply.
  • Ejecución de consultas SQL desde sparkR.

 

En resumen, SparkR proporciona una interfaz R sobre Apache Spark permitiéndoles a los usuarios realizar análisis a gran escala. Actualmente SparkR se encuentra en la versión 2.1.0. Por supuesto todas sus funcionalidades son de código abierto y puedes descargarlo desde aquí http://spark.apache.org, aquí la documentación oficial http://spark.apache.org/docs/latest/sparkr.html

 

Conclusión sobre SparkR

Aunque muchos de seguro hemos usado R tal vez no teníamos presente este paquete, las capacidades de poder procesar datos distribuidos y en grandes cantidades nos crea un abanico de oportunidades únicas en nuestro campo, espero que te allá parecido interesante éste artículo!

 


¿Qué te pareció SparkR? ¿Ya habías escuchado hablar de R a gran escala? ¿Te gustaría probarlo…cómo lo planearías?

Especialista en Business Intelligence con experiencia en herramientas como Pentaho, Microsoft y Microstrategy. Inmerso en Big Data, las Nuevas Tendencias, el Futbol y la Música.
Lista de los 20 Mejores Blog BI-Big Data

Lista de los 20 Mejores Blogs de BI y Big Data

En este artículo vas a encontrar una selección de distintos blogs que durante mucho tiempo me han ayudado a resolver dudas teóricas y prácticas. Algunos incluso gracias a su aporte, dejaron una visión clara para mí de cara a tomar la decisión de direccionar mi carrera profesional por el BI. Hoy en día y ya más enfocado en Big Data, también hago referencia blogs de gran calidad en este campo, sin más…pasemos a la Lista de los 20 mejores Blogs de BI y Big Data.

 

Que encontrarán…

Encontraremos distintos contenidos y tipos de blog, formados por profesionales que con sus experiencias aportan información  de calidad valiosísima para todos nosotros, donde  además de mostrar noticias y avances algunos son expertos en distintas herramientas y soluciones brindando artículos mucho más prácticos.

El listado está divido en secciones las cuales te ayudaran a dar una visión general de que puedes encontrar en cada uno.

 

 

Blogs Personales de Profesionales

La primera sección está destinada a referenciar aquellos blogs de profesionales que decidieron aportar valor constante a esta gran comunidad y de una u otra forma han servido de apoyo para resolver distintas dudas tanto técnicas como teóricas.

 

1. Business Intelligence Fácil

Este blog fue el primero que seguí cuando decidí especializarme en BI, pertenece a  Pau Urquizu y en su blog explica detalladamente aspectos importantes que debes tener claros a la hora de estar en este negocio con información de calidad. Recuerdo solucionar mi primer duda sobre tipos dimensiones en uno de sus post!!! Lo mejor es que su esencia es generar valor de la información con herramientas y usos que sean fáciles e intuitivas para los usuarios del negocio, es por eso que ahora es socio de una herramientas llamada CRONO muy buena, la cual puedes explorar y encontraras rápidamente lo fácil que es su uso.

blog_Business_Intelligence_Facil_BI

 

2. TodoBI

Es un blog muy completo, inicialmente es empresarial cuyo enfoque es el uso de tecnologías Open Source en BI y en Big Data, la organización es muy conocida en el mundo Opens Source, se llama Stratebi y en ella hace parte Emilio Arias, quien también es referente de BI en España (por cierto impartió una de las materias del Master en BI que cursé). Sus soluciones se basan en la plataforma Pentaho y actualmente ya cubre todas las características necesarias de integración con Big Data.

Al estar enfocado en brindar soluciones OS cuentan con distintos tutoriales que te permiten dar una visión del funcionamiento y gran utilidad que te pueden brindar realizar proyectos con este tipo de herramientas.

blog_TodoBI_BIBigData

 

3. Dataprix

Este blog es sumamente grande, nos brindan una abierta noción de distintas herramientas y tecnologías  para muchas categorías entre ellas BI y Big Data,  muy completo cuando deseas obtener una idea de qué herramienta usar para tus proyectos, también tiene un apartado de foro donde puedes dejar tus dudas y en un tiempo prudente algunos de los profesionales te dará respuesta conforme a su conocimiento y experiencia del tema.

blog_DataPrix

 

4. Josep Curto

Otro gran exponente del BI y Big Data experto con mucha experiencia en el campo. Tuve la fortuna de recibir clase de él durante el curso de mi especialidad, es muy claro conceptualmente y deja muy en claro los aspectos prácticos. Actualiza el blog moderadamente pues da cátedras en distintas universidades. Un blog con información muy valiosa.

blog_JosepCurto_BI

 

5. Business Intelligence Blog (BIB)

José María es otro apasionado  del BI, con más de 20 años de experiencia comparte en su blog todo tipo de contenido como técnico,  noticias, avances desde distintas perspectivas del negocio y actualmente generando contenido en Big Data. Puedes navegar sin problemas por su blog y encontrar información variada y actualizada.

blog_BIB_BI

 

6. UOC

El blog propio de la universidad donde me especialice. Sin más es un blog administrado por los mismo docentes quienes tiene una grandísima experiencia y manejan a la perfección muchísimos temas, tiene características muy interesante y por supuesto aquellas que nos competen, es actualizado y muy recomendado. De igual manera te brinda de entrada una garantía de la información que vas a obtener.

blog_UOC_BI

 

7. Roberto Espinosa

Roberto es otro gran exponente del BI, aunque su blog dejo de frecuentarlo, lo referencio debido a que en mis inicios también me ayudo bastante en distintos aspectos como en el modelado de datos y en el manejo de soluciones con Pentaho, la cual con ésta tuve mi primer acercamiento y proyecto en BI.  Con mucho contenido práctico te ayuda a solucionar distintas dificultades que muy seguramente estoy seguro te pueden servir si quieres conocer un poco más a fondo cómo funcionan las OS. Roberto hoy día está mucho más activo en el blog de Dataprix.

blog_Roberto_Espinosa_BI

 

8. Raúl Hernández Luque

Raúl es otro gran exponente del BI, con muchos años de experiencia es uno de los más activos, cada vez deja en claro su dominio, el contraste de situaciones reales que le suceden a muchas organizaciones con ejemplos prácticos cotidianos te da una visión perfecta  de cómo puedes actuar o como puedes innovar a la hora en que te suceda a ti.

Combinando su conocimiento con el marketing podemos tener una clara visión de cómo distintas profesiones pueden contrastar y generar un bien común para la organización.

blog_Raherlu_BI

 

9. SoyData

Al igual que todos los anteriores, su creador Jorge tuvo la iniciativa de tener un espacio colaborativo para la comunidad. En el aspecto enfocados al Big Data y su pasión por el Análisis de datos demostrando un perfil más de Data Science. Muy activo y actualizado y siempre al corriente de fabulosas tecnologías.

También brinda un espacio de capacitación en distintas herramientas analíticas indispensables para potenciar tu formación profesional.

Blog_SoyData_BigData

 

10. BI-Spain

Este blog o más bien portal, está dedicado a impartir información sobre BI. En el podremos encontrar información de muchas herramientas analíticas, también teoría y presentaciones como webinar  en vivo o gradas al servicio de la comunidad todo con el fin de mantenerte informado con la últimas novedades de nuestro entorno.

blog_BILatino_BI

 

Haz parte de mi Newsletter
Únete y haz parte como otros visitantes que reciben semanalmente mi newsletter con noticias y artículos actualizados sobre Business Intelligence y Big Data.
Al igual que tú, no tolero el SPAM. Tu dirección de email no será compartida.

 Blogs Especializados por Herramientas

La segunda sección está destinada a aquellos blog mucho más técnicos que durante mi experiencia laboral he logrado solucionar inconvenientes con distintas herramientas.

Son mucho más especializados en cada una de las presentadas que de seguro encontraran muy interesantes.

 

Pentaho

 

11. Pedro Alves

Debo mencionar que Pedro desde mi punto de vista es uno de los más grandes conocedores e impulsadores de Pentaho.

Hace algunos años fue quien gracias a sus aportes a la comunidad pude aprender profundamente todo lo relacionado con Pentaho. Hay que aclarar que hace unos 5-6 años atrás la comunidad no era tan extensa y que profesionales como Pedro nos brindaban esa información  que difícilmente lograbas encontrar en otros sitios.

blog_Pedro_Alves_BI

 

12. Red OpenBI

Mariano es el principal actor de esta iniciativa, al igual que Pedro Alves  desde mi punto e vista es otro de los más grandes exponentes e impulsadores de la tecnología OS con Pentaho. Mariano es de Córdoba Argentina y responde muy activo a las inquietudes presentadas en distintas instancias del uso de la herramienta.

Es muy bueno y variado, ideal para profesionales que si bien están iniciando, también tienen experiencia pues abarca todo tipo de respuestas.

De igual manera podemos encontrar a Mariano colaborando en muchos otros sitios y blogs.

blog_RedOpen_BI

 

13. PentahoHispano

El propietario es Juanjo, también aportando sobre soluciones OS. Aunque hace poco más de un año que no realiza publicaciones,  es de resaltar que la información que brinda actualmente es de suma importancia, al igual que los ponentes anteriores está inmerso con Pentaho así podrás obtener muy buena fuente de información.

Blog_JuanjoOrtilles_BI

 

Microstrategy

 

14. Bryan’s BI Blog

Bryan tiene distintos conocimientos pero su contenido principal está enfocado en soluciones bajo Microstrategy.

Si has trabajado con Microstrategy debes sabes que dispones una gran arquitectura para llevar a cabo un proyecto, Bryan te permite comprender aspectos que van desde la administración de la metadata hasta la creación de métricas incluyendo por ejemplos distintas variables en sus niveles.

Aunque es en inglés, la mayoría de las veces acompaña sus artículos con imágenes y explicaciones muy técnicas de manera que se hace fácil entender lo que dice y hace.

blog_Bryan_BI

 

15. Abel García

Abel es consultor BI con mucho experiencia en el campo, al igual que nuestro anterior blog, está enfocado completamente en Microstrategy, también realiza fabulosas guías ya en español donde te ayuda de otra forma a solucionar problemas de negocio o técnicos con la herramienta como a enriquecer tu conocimiento y manejo de la misma.

Ya no esta tan activo, pero de igual manera  el contenido que dejo es muy valioso y útil.

Blog_Abel_Garcia_BI

 

16. Sankaran T

Sankaran es otro exponente del BI, con mucha experiencia en el campo es otro experto de esta completa herramienta que con su aporte nos brinda apoyo en nuestras labores como desarrolladores, analistas o arquitecto con publicaciones con regularidad.

Blog_Sankaran_BI

 

Microsoft

 

17. SQL Server Si!

Salvador Ramos es su propietario, hace bastante tiempo le sigo y es experto en Microsoft para BI. Por dicha razón siempre está al tanto de las últimas novedades y aplicaciones de esta completa Suite, con ejemplos prácticos que dejan ver el gran beneficio, igualmente también brinda capacitaciones y master especializados

blog_sqlserver_BI

 

18. Alan Koo Labrin

Alan es MVP al igual que Salvador. De igual manera expone todas las novedades y presentaciones realizadas por él. Un blog muy detallado sobre funcionalidades y manejo de la Suite con situaciones reales y sus experiencias.

blog_Alankoo_BI

 

19. Paul Turley’s SQL Server BI

Paul al igual que los presentados anteriormente es otro MVC, su blog está catalogado dentro del Top 50 de Sql Server y constantemente está aportando a la comunidad. Con artículos más detallados de tipo Step by Step, explica las novedades y funcionales, algo muy práctico pues es en inglés y te da una guía fantásticas.

Blog_PaulTurley_BI

 

R

 

20. Revolutions R + Bonus

Este está al tanto de todas las novedades y actualizaciones de R. No puede faltar en tu lista si estas interesado en este software que cada año es más usado y preferido por los Data Science, con tutoriales y presentaciones de graficas de nuevas funcionalidades te va dando una introducción a lo quedes hacer y lo que puedes llegar a conseguir.

Además me permito referenciar otros blogs con valiosa información sobre esta herramienta analítica y estadista. Con noticias exclusivas de versiones y paquetes como tutoriales y ejemplos prácticos de manera que tú mismo puedes realizar y entender sin inconvenientes.

Si quieres aprender sobre Data Science por estos sitios debes pasar.

 

blog_Revolutions_R blog_R-Inside_R blog_R-Statistics_R

Smiley face

Como te puedes dar cuenta es una lista extensa, pero de seguro te servirá para ampliar tus referencias sobre BI, Big Data y Data Science, estar actualizado y mantenerte informado sobre distintas tendencias y novedades de nuestro interés.

Por supuesto pude haber dejago alguno por fuera…

Cual otro me recomendarías? Crees que dejé pasar uno importante para ti? Te gustaría crear otra sección? Cuéntame tus favoritos y ampliamos la lista!

Especialista en Business Intelligence con experiencia en herramientas como Pentaho, Microsoft y Microstrategy. Inmerso en Big Data, las Nuevas Tendencias, el Futbol y la Música.
Las 6V del Big Data

Las 6V del Big Data

En este artículo abordaré los principales aspectos del Big Data, generalmente denominadas como Las 6V del Big Data, mostrando en modo comparativo contra Business Intelligence Tradicional de manera que podamos visualizar fácilmente los beneficios que nos proporciona.

Tal como nos dimos cuenta en el artículo anterior, el Big Data es la tendencia principal del BI hoy en día.
Así que, porque no dedicarle un artículo completo?

 

 

Que es Big Data?

Cuando hablamos de Big Data, nos referimos específicamente  a un conjunto de técnicas y tecnologías que nos permiten almacenar, clasificar y analizar grandes volúmenes de datos, solucionando algunas limitantes que sufren actualmente nuestras plataformas de Business Intelligence Tradicional, entre otras la gestión y administración de nuevas fuentes de información.

Desde el contexto del BI Tradicional, estamos acostumbrados a tratar datos con crecimiento  diario o mensual no muy variado, pero siempre con el mismo tipo de dato (Estructurado y definido), las mismas fuentes (Tales como: Archivos Excel, TXT, ODS o Aplicaciones empresariales relacionales, entre otros), incluso contando con el mismo rango de tiempo de carga aprox. de 4 a 7 horas diarias…pero que pasaría, si nuestra organización  quisiera contar con información en tiempo real de lo que opinan sus clientes sobre un producto o servicio específico?

Vamos a un ejemplo de actualidad, la manera más ideal de obtener dicha información es mediante la medición en tiempo real de nuestras redes sociales.

Por ejemplo, todos hemos visto como las programas de televisión sacan provecho de esto, en particular con su programación en vivo…para un partido de futbol crean un Hashtag #FutbolParaTodos y mientras transmiten también muestran la cantidad de tweets o interacciones del público.

Ejemplo del uso de HashTag en Big Data
Ejemplo del uso de HashTag en Big Data

Ahora, volviendo a nuestra pregunta anterior…si nuestra organización o programadora de televisión quisiera incluir éste dato particular como métrica y así medir su impacto en Twitter, como lo podría soportar nuestra plataforma BI Tradicional?

Analícemelo como nueva fuente de datos:

Tipos de Datos: Claramente sería un nuevo tipo de dato, pues nuestra fuente de información que en este caso sería Twitter nos proporcionaría tweets en su propio formato, el cual en este caso serían documentos en formato JSON (JavaScript Object Notation).

Fuente de Datos: Estamos hablando de una fuente externa la cual no controlamos, estos datos no serían estructurados y ni tampoco cumplirían en primera instancia nuestros aspectos de meta data, ni análisis de información estandarizados por lo tanto esto conlleva a un gran trabajo de transformación.

Tiempo de Carga: Los flujos de datos deberán tomarse con lapsos de tiempo mínimos ya que como todos sabemos pueden haber miles de tweets por segundo, si nuestra solución tradicional  demora en su carga diaria mínimo 4 Horas…realmente lo podríamos soportar?

Cantidad de Datos: Todos sabemos que pueden haber cientos de miles de tweets, entonces lo más probable es que la cantidad de nuevos datos que obtendremos para nuestra métrica va a ser considerablemente grande.

Ahora, nuestra solución BI Tradicional cuenta con una base de datos transaccional capaz de soportar cada uno de estos aspectos?…así que es momento de  preguntarnos:

Nuestra base de datos transaccional soportará grandes volúmenes de datos?
Nuestra base de datos transaccional soportará grandes inserciones por segundo de datos?
Nuestra base de datos transaccional soportará este nuevo tipo de dato?
Nuestra base de datos transaccional podrá convivir con variedad de datos?

Si bien nuestra base de datos transaccional podría responda al menos a una de las preguntas anteriores, para cumplir nuestro objetivo debemos responderlas todas y ciertamente no lo estamos haciendo.

Para tal efecto y para solucionar estas limitantes fue creado el Big Data, que si bien no reemplazará nuestra solución BI Tradicional…si la potenciará o evolucionará con nuevos datos.

Definiendo Las 6V del Big Data

Las 6V del Big Data
Las 6V del Big Data

1. Volumen

Refiere a la capacidad de almacenar grandes bancos de información.

Nuestras soluciones de BI Tradicional contienen un volumen de datos habitual y constante, llegando a tamaños de almacenamiento no mayores a los gigabytes.

Conforme se genera la necesidad de incluir nuevas fuentes emergentes la cantidad de datos crece a un ritmo abismal y nuestro Data Warehouse debe ser capaz de soportar el almacenamiento y el procesamiento de dichos datos para posteriores análisis.

Existen distintas fuentes de datos emergentes que generan grandes cantidades de información y en muy corto tiempo, por supuesto superan considerablemente los tamaños básicos de almacenamiento de soluciones BI Tradicional. (Imagina el típico ejemplo de la cantidad inmensa de tweets que se generan por segundo) .

Podríamos considerar nuevas fuentes de datos emergentes en BI: las redes sociales, sensores de movimiento, sensores de infraestructuras, páginas web, blog, aplicaciones, georeferenciación…entre otros.

2. Velocidad

Las nuevas fuentes emergentes, al igual que generan gran cantidad de datos…también generan datos a gran velocidad y esto es muy visible con nuestro ejemplo actual: muchos tweets o información de redes sociales por segundo o incluso imágenes de vídeo de una transmisión de Streaming de algún evento particular.

Todos estos datos pueden ser esenciales a la hora de tomar una decisión, en el caso de las redes sociales como bien sabemos poder identificar lo que se dice, se piensa o se cree de nuestra organización, por otro lado en las imágenes del evento podríamos validar en tiempo real los gestos de las persona y saber si les gusta o no lo que están percibiendo.

Así púes nuestros DW no soportarían tan grandes flujos de velocidad constante.

3. Variedad

Nuestros DW actualmente cuentan con datos estructurados, datos definidos para la información de nuestros clientes, productos y demás, cuya finalidad nos permite incluir nuevas fuentes adaptadas fácilmente. Pero con las nuevas fuentes disponibles empezamos a encontrar tipos de datos que antes no pensábamos fuera posible contar, entre los que podríamos encontrar: Imágenes o Fotografías, Vídeo, Texto, XML, JSON, Clave-Valor, Audio, Señales de Sensores, Estados de Tiempo, Blog, HTML o incluso datos del Genoma humano…

Las bases de datos transaccionales que usamos en nuestro DW bien podrían almacenar estos tipos de datos, pero no sería de gran ayuda ya que no son óptimas y no nos permitiría extraer información de valor.

Las tecnologías de almacenamiento que usamos actualmente no cuentan con capacidades ni la disposición de alojar estos tipos de datos, por ende es necesario contemplar base de datos que nos brinde flexibilidad y diversidad en este aspecto.

4. Veracidad

Si bien nuestras fuentes existentes han pasado por un proceso de análisis y validación hasta definirse como información de valor para la toma de decisiones, de la misma manera debe suceder para las nuevas fuentes emergentes.

La veracidad o calidad del dato está definida por la elección de los registros de datos que verdaderamente aporten valor, directamente relacionada con la variedad ya que al tener distintos tipo de datos debemos implementar distintos modelos que satisfagan esta condición, es necesario contar con personal que ayude a filtrar y a mantener los datos completamente limpios y tratados para nuestra estrategia.

Al igual que el BI Tradicional debemos contemplar desde el inicio que nuestra finalidad es contar con bancos de datos que una vez tratados y analizados van a generar valor al negocio.

Está bien considerar que éste podría ser el primer escalón, pero no debemos olvidar que está directamente relacionada a los tipos de datos variables que vamos a contemplar.

Haz parte de mi Newsletter
Únete y haz parte como otros visitantes que reciben semanalmente mi newsletter con noticias y artículos actualizados sobre Business Intelligence y Big Data.
Al igual que tú, no tolero el SPAM. Tu dirección de email no será compartida.

5. Valor

Llegados a este punto, es bueno considerar que a pesar de que hemos incluido nuevas fuentes de datos, hemos contemplando el uso de nuevas tecnologías y que hemos generado valor con la inclusión de nuevas métricas y KPI a nuestra plataforma de BI Tradicional, sería interesante  el pensar explotar y generar mucho más provecho a esta información.

Utilizando ciertamente técnicas, algoritmos y desarrollos que permitan predecir con un mayor peso de los datos algunas tomas de decisiones como por ejemplo: predecir comportamientos de nuestros clientes, el momento exacto para crear un nuevo producto o incluso identificar fraudes transaccionales, todo esto es posible si contamos con personas o herramientas que ayuden a la organización a descubrir lo que no sabe, obtener conocimiento predictivo y comunicar historias de datos relevante, generan mucha más confianza en la toma de decisiones desde los datos.

Especialmente estamos hablando de personas con perfil de Científicos de Datos.

6. Visibilidad

Hasta este punto todas y cada una de las V’s se complementan, contando con un gran banco de datos que nos provee información confiable, variable, actualizada y además nos está generando un valor importante frente a nuestra competencia, también es necesario empezar a contar con herramientas de visualización que permitan una manera fácil de leer  nuestros nuevos análisis, que bien podrían ser estadísticos y que muy seguramente comprometería su desarrollo con nuestras herramientas de reporting que contamos actualmente.

Porque crees que tantas empresa de BI actualmente se enfocan en presenta un manera más fácil y flexible de presentar la información?

Para reflejar un poco ese aspecto, te comparto una de mis presentaciones con el software R donde represento de distintas formas de visualizar la oportunidad de tomar la decisión de renovar un servicio para una población especifica después de haber integrado distintas fuentes.

Visualización Analítica R en Big Data
Ejemplo de Visualización Analítica en R para Big Data

 

Espero que sea de tu agrado mi pequeña perspectiva del Big Data frente a la decisión de evolucionar nuestras plataformas BI Tradicional con su integración.

 

Qué opinas de las 6V del Big Data? Consideras que falta una nueva V? Crees que aún no se debería de considerar alguna de las V expresadas anteriormente?

Especialista en Business Intelligence con experiencia en herramientas como Pentaho, Microsoft y Microstrategy. Inmerso en Big Data, las Nuevas Tendencias, el Futbol y la Música.