Big Data Archives - Página 2 de 2 - Blog de John A. Carvajal

Internet de las cosas IoT: Una oportunidad más para el Big Data

1 septiembre, 20166 septiembre, 2016 John Alexander 1 comentario

Es interesante el avance tan sorprender del campo del Internet de las Cosas en la actualidad, poder conectar cualquier dispositivo a internet es fascinante, pero dónde y cómo se almacenan los datos? Cómo se gestionan éstos datos? Y Cómo podríamos aprovechar esta gran oportunidad en Big Data?

IoT + Big Data

Hace algunos años ni siquiera imaginábamos la posibilidad, por ejemplo, de que nuestro cepillo dental nos avise sobre la existencia de caries y que automáticamente nos solicite cita con el dentista, que nuestros cubiertos nos digan la velocidad en la que comemos para mejorar nuestra forma de comer o que incluso que nuestro inodoro analice nuestra orina y en base a los resultados diarios y periódicos nos recomiende la dieta más adecuada…así como las anteriores existen innumerables casos de aplicación del Internet de las Cosas o IoT de las cuales podemos sacar suficiente provecho, desde los desarrolladores hasta quienes gestionamos datos y por supuesto las industrias que quieran estar a la vanguardia.

No es de extrañar que nos llegue un correo electrónico periódico con el estado actual de nuestro coche o motocicleta antes de salir de casa con datos como el nivel de aceite, la iluminación, estado del motor, de los frenos y demás, todo esto es posible gracias a la posibilidad de obtener distintos tipo de información, en distintos formatos y en grandes cantidades cada momento, eso es algo que no vemos a simple vista porque solo nos llega el resultado pero desde el punto de vista técnico existiría una gran relación entre IoT y el Big Data.

La idea de llegar al punto de conectar a internet cualquier dispositivo nos crea una gran oportunidad de crecimiento exponencial de datos, disponer con nuevos bancos de datos que acompañen las estadísticas convencionales conocidas de que hoy en día donde se generan por minuto 204 millones de emails, 1.8 millones de Likes y se suben alrededor de 200 mil fotos en Facebook y se envía 278 mil de Like en Twitter es algo por lo que necesariamente debemos estar preparados.

Nuevos Bancos de Datos

Cada vez es más evidente el crecimiento abismal de los datos y hoy en día gracias al abanico de posibilidades que nos brinda el IoT incluso se podría triplicar en los próximos años.

Imaginemos que tenemos algunos electrodoméstico de nuestra casa conectados a internet como por ejemplo: Lámparas, Ventiladores, Aires Acondicionados, Nevera, Lava ropa y Lava Vajilla, cada uno con un dispositivo recolector de datos que captura distintos tipos y cantidades de datos a la vez, útiles para brindarnos análisis en tiempo real donde tendremos alertas de qué nos hace falta en la nevera y solicitar pedido automático al supermercado, programar remotamente la ejecución del lavarropa o incluso encender nuestro aire acondicionado y ambientar nuestra casa poco tiempo antes de que lleguemos.

Pero algo que debemos tener presente es que para que los datos lleguen a nuestras manos en las aplicaciones, los datos tuvieron que sufrir un proceso de tratamiento y normalización para llegar a la veracidad para que sean funcionales para nosotros, es aquí donde entra en juego la oportunidad para el Big Data.

internet-de-las-cosas — Interne tde las Cosas IoT, Fuente: consorcioaz.com

Oportunidad Big Data

Una organización desea abrir un nuevo punto de venta pero desea elegir su mejor opción entre 3 lugares distintos, para tal efecto propone conocer de primera mano el flujo de personas que transitan por cada lugar en cada instante y por cada día de la semana. Para este caso se decide ubicar varios sensores de proximidad en cada uno de los lugares, transmitiendo vía WIFI mediante un API hacia los puntos de recepción de los datos en la central de la organización.

Dependiendo del flujo de personas podríamos recibir grandes cantidades de información a distintas horas del día, toda esta información vendría en formato predefinido por cada sensor que bien podría ser xml, JSON, Semi estructurado o incluso un formato propio por cada fabricante.

Almacenar y tratar los datos generados aquí proporcionaría información valiosa donde se identificará la cantidad de personas por hora y día en cada sitio elegido de manera que permita guiar a la organización a tomar su mejor decisión que en este caso sería abrir su punto de venta donde mejor le convenga.

Retos como el anterior donde existirá una creciente y constante fuente de transmisión de datos, es de suma importancia contar con soluciones que permitan extraer información valiosa de ello, esto lo podemos conseguir actualmente apoyándonos con tecnologías como Hadoop que proporciona una gran cantidad de soluciones que se pueden adaptar a nuestras necesidades de procesamiento. Prácticamente podríamos tratar al IoT dentro del Big Data como una nueva fuente emergente de datos, la cual podríamos combinar fácilmente con set de datos Open Data que contengan información de Cajeros Automáticos en la zona para facilitar el retiro y pago pronto, vías de acceso más cercanas para identificar las horas pico o de tráfico lento para aprovechar y realizar publicidad en sitio o incluso las rutas de los distintos medios de transporte por cada lugar e identificar paradas cercanas.

Retos IoT + BigData

Todo esto nos lleva a plantearnos algunos retos a cubrir con el manejo de la gran cantidad de datos generados por la nueva oleada del IoT, que como hemos visto en artículos anteriores son aquellos que por su composición y estructura debe cumplir todo proyecto de Big Data:

Recopilación de los datos:

Permitir incluir como nueva fuente de datos y combinar con datos existentes de manera que permita generar valor de mayor peso a la toma de decisiones.
En este caso poder combinar en una sola visualización los datos de cada sensor con datos de los asesores ventas que tienen segmentos de personas cerca a los lugares y con datos Open Data que permita dar una visión presente y a futuro en materia de movilidad por cada lugar, etc.

Almacenamiento de los datos:

Bien podríamos decidir hacer uso de las distintas bases NoSql, llevar nuestro proyecto a la nube o bien llegar al punto de almacenar los datos en bases relacionales.
Aquí recordamos el concepto poliglota, debemos ser capaces de poder almacenar toda esta combinación de datos y poder convertirlos en un solo repositorio de información.

Análisis y Visualización de los datos:

Permitir identificar visualizar la información al tiempo que permita crear patrones o tendencias sobre los datos recolectados, poder generar valor a partir de la gran masa de información generada adicional a la existente es uno de los principales retos.

Conclusión

Debemos prepararnos para la llegada de grandes bancos de información desde una nueva fuente llamada IoT, falta poco para que se haga masivo el uso de APIS y de datos Open Data en cualquier área de negocio y es ahí donde debemos estar preparados, capacitados y con el conocimiento necesario para sacar el máximo provecho a todos estos datos.

Consideras también que el IoT es una oportunidad para el Big Data? O por el contrario opinas que el IoT no se debe relacionar al Big Data?

Bases de Datos NoSQL: MongoDB

11 agosto, 201616 junio, 2017 John Alexander Deja un comentario

Una vez decides emprender el camino del conocimiento de las Bases de Datos Big Data es necesario tener presente que conceptualmente son diferentes a las bases de datos relacionales. Entre ellas las bases de tipo documental como MongoDB que por su composición es una muy buena opción con la cual puedes empezar en este mundo, aunque veremos cambios conceptuales tendremos una visión clara de cómo nos podemos beneficiar de su uso.

Bases de Datos Documentales

Como hemos visto anteriormente, estas bases permiten almacenar estructuras de datos las cuales llamamos documentos que pueden ser de distintos tipos como XML, YAML y JSON principalmente, la gran ventaja es que los documentos no necesariamente deben seguir una misma estructura de manera que fácilmente podremos crear aplicaciones dinámicas y escalables.

Existen distintas bases de datos NoSQL documentales tales como: CouchDB, OrientDB, RavenDB, Terrastore, entre otras, hoy vamos a ver una base que goza de uan buena posición en el RankingDB y desde que empezó a tenido un considerable crecimiento incluyendo una comunidad cada vez más grande, hablaremos de MongoDB.

¿Qué es MongoDB?

Es una base de datos NoSQL cuya principal característica es almacenar la información en estructura documental más exactamente lo que conocemos como JSON (Java Script Object Notation), aunque internamente son almacenados en formato BSON (Que vendría siendo la representación binaria de cada documento).

La ventaja al almacenar los datos en formato documental es que gozamos de una ventaja muy interesante frente a las bases tradicionales y es precisamente disponer de un esquema dinámico, cómo así?… pues que no es necesario que todos los documentos almacenados tengan la misma estructura o el mismo esquema, veamos un ejemplo:

ejemplo-documentos-en-NoSQL — Ejemplo de documentos en base de datos NoSQL

En la anterior imagen podemos observar dos documentos con información de dos facturas y su respectivo detalle, como vemos ambos tienen internamente un array de documentos llamado “ítem”, el cual uno tiene dos objetos y el otro solo uno…de igual manera el primero tiene un array adicional de cadenas llamado “intereses” el cual no tiene el segundo.

Esta característica es muy interesante debido a que aparte de administrar y gestionar el espacio de almacenamiento en una sola operación podríamos obtener una gran cantidad de información.

Nomenclatura RDBMS vs MongoDB

Veamos la nomenclatura de los distintos términos de los componentes de ambos tipos de bases:

Como podemos observar en la tabla anterior, ambos tipos de bases de datos manejan casi los mismos componentes..

Un aspecto muy importante a tener en cuenta es que los documentos no pueden exceder los 16 MB de tamaño, pero al mismo tiempo existe otra funcionalidad llamada GridFS cuya finalidad es extender dicha limitante para permitir almacenar documentos de GB o incluso TB (Podrías usar ésta opción en caso de que desees leer porciones de archivos de gran tamaño sin necesidad de tener que cargar todo su contenido en memoria).

Familiarizarnos con los términos no es tan complicado pues la lógica sigue la misma estructura que conocemos, por el contrario una de las principales diferencias y gracias a que MongoDB no soporta Joins debido a su estructura de datos desnormalizada, son los distintos metodos a tener presente en el modelado de datos los cuales veremos en el siguiente apartado.

Modelando datos en MongoDB

Como comenté anteriormente, debemos cambiar un poco nuestra lógica de modelado de datos…venimos de definir nuestros modelos de datos teniendo en mente siempre los requerimientos de la información solicitada y por supuesto las Formas de Normalización donde lo normal es llegar hasta la 3FN o incluso 4 y 5FN (Aunque existen muchos aspectos más pero viniendo al tema tratado resalto estas por el momento).

Debemos centrarnos en identificar el camino más corto para recuperar la mayor cantidad de información posible

Hasta aquí todos estamos familiarizados, por el contrario en MongoDB diseñamos nuestros modelos analizando y teniendo en mente el cómo vamos a recuperar la información, a que me refiero?…como observaste en la primer imagen (Ejemplo de documentos en base de datos NoSQL) podemos ver fácilmente que podemos almacenar distintos tipos de información en un solo documento, si lo llevamos a un modelo relacional fácilmente tendríamos las siguientes tablas: Factura, Detalle Factura , Cliente, Tipo de Pago, Intereses, Ítem y Tiempo.

Así mismo se debe tener presente como diseñar y elegir la estructura de los documentos, viendo la misma imagen podemos leer el contenido de dos maneras, puede ser tanto una colección de Clientes como de Facturas…pero el verdadero valor de ventaja estará representado en cómo necesitas obtener los datos.

Supongamos que es una colección de Clientes, si consultamos constantemente solo información del cliente pero muy de vez en cuando sus facturas, estaríamos desperdiciando memoria y procesamiento de la base pues debemos realizar un trabajo extra para extraer una cantidad de información innecesaria. Por el contrario si lo que necesitamos es consultar constantemente las Facturas realizadas, la información del Cliente y el detalle de lo facturado, sería una ventaja tener todo en un mismo documento pues con una sola consulta estamos obteniendo toda la información deseada.

Por supuesto cabe anotar que debes tener presente el crecimiento de los datos a futuro, por eso es importante saber que se quiere como finalidad del proyecto para así poder realizar un buen modelado de datos.

Veamos los distintos tipos de modelado de datos que podemos encontrar.

· Modelado Uno a Uno

En este modelado la finalidad es embeber datos altamente relacionados dentro de una misma estructura o documento, facilmente podemos incrustar o embeber documentos dentro de otros documentos. Al tener este tipo de modelo de datos desnormalizados nos permite recuperar y manipular los datos rapidamente.

· Modelado Uno a Muchos

En este modelado la finalidad es identificar aquellos datos mucho más descriptivos relacionados entre sí y almacenarlos en una misma estructura, regularmente se identifican con arrays de distintos tipos como: documentos, cadenas, números y podrían representar por ejemplos datos como listas de direcciones, de libros, varias etiquetas, números telefónicos, amigos, colores favoritos, etc.

· Modelado Uno a Muchos con Referencias

Debido que no se soportan Joins por mantener un esquema desnormalizado, posee una funcionalidad que permite almacenar información relacionada en documentos separados dentro de una misma base de datos como en distintas bases de datos, lo que conocemos como un link en Oracle.

De igual manera existen dos opciones:

-Referencia Manuales

Usada principalmente para relacionar documentos entre dos colecciones.


> db.albums_friends.findOne()
{
"_id" : 1,
"height" : 480,
"width" : 640,
"tags" : [
"cats",
"sunrises",
"kittens",
"travel",
"vacation",
"work"
]
}

> db.images.findOne()
{
"albums_friends_id" : 1,
"images" : [
2433,
2753,
2983,
6510,
11375,
12974,
15344,
16952,
19722,
23077,
24772,

]
}

-DBRefs

Esta opción nos permite referenciar documentos de múltiples colecciones, la ventaja es que en éste caso también podemos indicar tanto la colección como la Database donde se encuentran.

> db.images.findOne()
{
        "albums_friends_reference" : {
                  "$ref" : "albums_friends",
                  "$id" : 1,
                  "$db" : "albums"
               },
        "images" : [
                2433,
                2753,
                2983,
                6510,
                11375,
                12974,
                15344,
                16952,
                19722,
                23077,
                24772,
                
        ]
}

Como nos ayuda en Big Data?

Como vimos en el artículo de introducción al Big Data es necesario que se cumplan ciertas características:

· Alta Disponibilidad

Gracias a su funcionalidad Replica Set, podemos almacenar nuestra información en más de un servidor a la vez de manera que nunca se pierda disponibilidad si alguno llega a fallar y al mismo tiempo brinda durabilidad.

· Escalabilidad Horizontal

Sharding permite particionar nuestros datos a través de un Cluster de servidores permitiendo dividir nuestras cargas de disponibilidad, escalando fácilmente y de manera inmediata.

· Atomicidad

Una gran ventaja al no disponer de transacciones, es que las operaciones se realizan de manera atómica, lo que quiere decir que si insertamos un dato una vez el servidor confirme la operación éste permanecerá hasta que se modifique o elimine…funcionando de igual manera para todas las operaciones, con esto garantizamos consistencia en los datos.

· Almacenamiento de grandes bancos de información

La combinación de las funcionalidades anteriores hacen de ésta base de datos NoSQL una buena opción siempre que aplique y dé solución a nuestros requerimientos, un buen diseño nos brindara una solución altamente escalable y disponible.

· Schemaless

Como vimos en el apartado anterior, nos permite definir la estructura de los datos que vamos a almacenar según sea el requerimiento, esto no quiere decir que no debamos controlar tanto el desarrollo de nuestra aplicación como el de nuestra base….por el contrario es necesario definir bien nuestros modelos de datos pues a futuro puede impactar enormemente en el rendimiento y el crecimiento de la misma.

Recursos

Si esta introducción a MongoDB te ha gustado, de seguro estarás interesado en profundizar los distintos temas tratados y en aprender mucho más. Gracias a su gran acogida y al crecimiento exponencial de uso de la misma, han creado una serie de recursos gratuitos de los cuales puedes sacar bastante provecho, yo por mi parte he tomado todo lo que voy a referenciarte y aunque la mayoría es en ingles también hay material en español así que te invito a que profundices!

· Mongo University

Es un espacio donde los mismos desarrolladores y profesionales la base de datos comparten su conocimiento al público, existen cursos de distintos niveles y perfiles. Lo increíble es que puedes tomar los cursos que desees y además te obsequian un certificado que puedes colocar en tu perfil de Linkedin, puedes ver en mi perfil en la sección de Certificaciones como lucen.

· Mongo Webinars

Tiene la misma finalidad que el anterior pero la diferencia es que es en vivo y en formato webinar, donde además de interactuar con un experto también lo haces con profesionales interesados en el tema, existen secciones en español pero debes estar pendiente…puedes registrarte al instante.

· Mongo MUG

Haz escuchado de la aplicación Meetup? Pues esta aplicación funciona como una red social que permite a sus usuarios realizar reuniones en la vida real. Actualmente existen más de 100 grupos alrededor del mundo, puedes elegir el más cercano y prepararte para la próxima reunión!

· Mongo Community

Por supuesto también puedes encontrar absolutamente todo lo relacionado con MongoDB en la siguiente dirección

· Mongo Blog

Posiblemente uno de los recursos principales, además de contar con información sobre los avances de las versiones y sus mejoras también encontrarás artículos prácticos donde aprenderás muchísimo.

Espero que te haya gustado el artículo, te motive a leer y aprender un poco más de esta increíble base de datos NoSQL. Te informo que en los siguientes artículos profundizare sobre el almacenamiento, manipulación de documentos, explicaré como configurar ReplicaSet, Sharding…nos veremos pronto!

¿Qué opinas de MongoDB ? Te parece interesante y te gustaría probarla? Tienes alguna idea en la que creas que puedes utilizarla?

Lista de los 20 Mejores Blog BI-Big Data

Lista de los 20 Mejores Blogs de BI y Big Data

28 julio, 20161 enero, 2022 John Alexander 12 comentarios

En este artículo vas a encontrar una selección de distintos blogs que durante mucho tiempo me han ayudado a resolver dudas teóricas y prácticas. Algunos incluso gracias a su aporte, dejaron una visión clara para mí de cara a tomar la decisión de direccionar mi carrera profesional por el BI. Hoy en día y ya más enfocado en Big Data, también hago referencia blogs de gran calidad en este campo, sin más…pasemos a la Lista de los 20 mejores Blogs de BI y Big Data.

Que encontrarán…

Encontraremos distintos contenidos y tipos de blog, formados por profesionales que con sus experiencias aportan información de calidad valiosísima para todos nosotros, donde además de mostrar noticias y avances algunos son expertos en distintas herramientas y soluciones brindando artículos mucho más prácticos.

El listado está divido en secciones las cuales te ayudaran a dar una visión general de que puedes encontrar en cada uno.

Blogs Personales de Profesionales

La primera sección está destinada a referenciar aquellos blogs de profesionales que decidieron aportar valor constante a esta gran comunidad y de una u otra forma han servido de apoyo para resolver distintas dudas tanto técnicas como teóricas.

1. Business Intelligence Fácil

Este blog fue el primero que seguí cuando decidí especializarme en BI, pertenece a Pau Urquizu y en su blog explica detalladamente aspectos importantes que debes tener claros a la hora de estar en este negocio con información de calidad. Recuerdo solucionar mi primer duda sobre tipos dimensiones en uno de sus post!!! Lo mejor es que su esencia es generar valor de la información con herramientas y usos que sean fáciles e intuitivas para los usuarios del negocio, es por eso que ahora es socio de una herramientas llamada CRONO muy buena, la cual puedes explorar y encontraras rápidamente lo fácil que es su uso.

2. TodoBI

Es un blog muy completo, inicialmente es empresarial cuyo enfoque es el uso de tecnologías Open Source en BI y en Big Data, la organización es muy conocida en el mundo Opens Source, se llama Stratebi y en ella hace parte Emilio Arias, quien también es referente de BI en España (por cierto impartió una de las materias del Master en BI que cursé). Sus soluciones se basan en la plataforma Pentaho y actualmente ya cubre todas las características necesarias de integración con Big Data.

Al estar enfocado en brindar soluciones OS cuentan con distintos tutoriales que te permiten dar una visión del funcionamiento y gran utilidad que te pueden brindar realizar proyectos con este tipo de herramientas.

3. Dataprix

Este blog es sumamente grande, nos brindan una abierta noción de distintas herramientas y tecnologías para muchas categorías entre ellas BI y Big Data, muy completo cuando deseas obtener una idea de qué herramienta usar para tus proyectos, también tiene un apartado de foro donde puedes dejar tus dudas y en un tiempo prudente algunos de los profesionales te dará respuesta conforme a su conocimiento y experiencia del tema.

4. Josep Curto

Otro gran exponente del BI y Big Data experto con mucha experiencia en el campo. Tuve la fortuna de recibir clase de él durante el curso de mi especialidad, es muy claro conceptualmente y deja muy en claro los aspectos prácticos. Actualiza el blog moderadamente pues da cátedras en distintas universidades. Un blog con información muy valiosa.

5. Business Intelligence Blog (BIB)

José María es otro apasionado del BI, con más de 20 años de experiencia comparte en su blog todo tipo de contenido como técnico, noticias, avances desde distintas perspectivas del negocio y actualmente generando contenido en Big Data. Puedes navegar sin problemas por su blog y encontrar información variada y actualizada.

6. UOC

El blog propio de la universidad donde me especialice. Sin más es un blog administrado por los mismo docentes quienes tiene una grandísima experiencia y manejan a la perfección muchísimos temas, tiene características muy interesante y por supuesto aquellas que nos competen, es actualizado y muy recomendado. De igual manera te brinda de entrada una garantía de la información que vas a obtener.

7. Roberto Espinosa

Roberto es otro gran exponente del BI, aunque su blog dejo de frecuentarlo, lo referencio debido a que en mis inicios también me ayudo bastante en distintos aspectos como en el modelado de datos y en el manejo de soluciones con Pentaho, la cual con ésta tuve mi primer acercamiento y proyecto en BI. Con mucho contenido práctico te ayuda a solucionar distintas dificultades que muy seguramente estoy seguro te pueden servir si quieres conocer un poco más a fondo cómo funcionan las OS. Roberto hoy día está mucho más activo en el blog de Dataprix.

8. Raúl Hernández Luque

Raúl es otro gran exponente del BI, con muchos años de experiencia es uno de los más activos, cada vez deja en claro su dominio, el contraste de situaciones reales que le suceden a muchas organizaciones con ejemplos prácticos cotidianos te da una visión perfecta de cómo puedes actuar o como puedes innovar a la hora en que te suceda a ti.

Combinando su conocimiento con el marketing podemos tener una clara visión de cómo distintas profesiones pueden contrastar y generar un bien común para la organización.

9. BiSolutions

Aunque hace parte de una empresa de soluciones tecnológicas tiene excelente contenido y un moderadro activo el cual permite ver contenido actualizado constante brindado igualmente un espacio de capacitación en distintas herramientas analíticas indispensables para potenciar tu formación profesional.

10. BI-Spain

Este blog o más bien portal, está dedicado a impartir información sobre BI. En el podremos encontrar información de muchas herramientas analíticas, también teoría y presentaciones como webinar en vivo o gradas al servicio de la comunidad todo con el fin de mantenerte informado con la últimas novedades de nuestro entorno.

Blogs Especializados por Herramientas

La segunda sección está destinada a aquellos blog mucho más técnicos que durante mi experiencia laboral he logrado solucionar inconvenientes con distintas herramientas.

Son mucho más especializados en cada una de las presentadas que de seguro encontraran muy interesantes.

Pentaho

11. Pedro Alves

Debo mencionar que Pedro desde mi punto de vista es uno de los más grandes conocedores e impulsadores de Pentaho.

Hace algunos años fue quien gracias a sus aportes a la comunidad pude aprender profundamente todo lo relacionado con Pentaho. Hay que aclarar que hace unos 5-6 años atrás la comunidad no era tan extensa y que profesionales como Pedro nos brindaban esa información que difícilmente lograbas encontrar en otros sitios.

12. Red OpenBI

Mariano es el principal actor de esta iniciativa, al igual que Pedro Alves desde mi punto e vista es otro de los más grandes exponentes e impulsadores de la tecnología OS con Pentaho. Mariano es de Córdoba Argentina y responde muy activo a las inquietudes presentadas en distintas instancias del uso de la herramienta.

Es muy bueno y variado, ideal para profesionales que si bien están iniciando, también tienen experiencia pues abarca todo tipo de respuestas.

De igual manera podemos encontrar a Mariano colaborando en muchos otros sitios y blogs.

13. Pentaho Data Academy

Otra empresa expecializada en capacitaciones y tecnología de nuestro interes. Aunque son expertos presentan un excelente contenido con tutoriales y lecturas.

Microstrategy

14. Miguel Troyano

Miguel está enfocado en soluciones bajo Microstrategy.

Si has trabajado con Microstrategy debes saber que dispones de una gran arquitectura para llevar a cabo un proyecto. Miguel te ayuda a comprender aspectos que van desde la utilización de funcionalidades básicas como avanzadas, manejo de metadata hasta la creación de métricas incluyendo ejemplos con comandos y wizard en general.

La ventaja es que encontrar contenido en español para esta herramienta es un poco limitado pero Miguel y sus explicaciones hace fácil entender lo que dice y hace.

15. Abel García

Abel es consultor BI con mucho experiencia en el campo, al igual que nuestro anterior blog, está enfocado completamente en Microstrategy, también realiza fabulosas guías ya en español donde te ayuda de otra forma a solucionar problemas de negocio o técnicos con la herramienta como a enriquecer tu conocimiento y manejo de la misma.

Ya no esta tan activo, pero de igual manera el contenido que dejo es muy valioso y útil.

16. Microstrategy

Blog oficial ne ingles con documentación extensa y detalla de una de las herramientas más imponentes en el mercado en cuanto al análisis de datos empresarial.

Microsoft

17. SQL Server Si!

Salvador Ramos es su propietario, hace bastante tiempo le sigo y es experto en Microsoft para BI. Por dicha razón siempre está al tanto de las últimas novedades y aplicaciones de esta completa Suite, con ejemplos prácticos que dejan ver el gran beneficio, igualmente también brinda capacitaciones y master especializados

18. Alan Koo Labrin

Alan es MVP al igual que Salvador. De igual manera expone todas las novedades y presentaciones realizadas por él. Un blog muy detallado sobre funcionalidades y manejo de la Suite con situaciones reales y sus experiencias.

19. Paul Turley’s SQL Server BI

Paul al igual que los presentados anteriormente es otro MVC, su blog está catalogado dentro del Top 50 de Sql Server y constantemente está aportando a la comunidad. Con artículos más detallados de tipo Step by Step, explica las novedades y funcionales, algo muy práctico pues es en inglés y te da una guía fantásticas.

R

20. Revolutions R + Bonus

Este está al tanto de todas las novedades y actualizaciones de R. No puede faltar en tu lista si estas interesado en este software que cada año es más usado y preferido por los Data Science, con tutoriales y presentaciones de graficas de nuevas funcionalidades te va dando una introducción a lo quedes hacer y lo que puedes llegar a conseguir.

Además me permito referenciar otros blogs con valiosa información sobre esta herramienta analítica y estadista. Con noticias exclusivas de versiones y paquetes como tutoriales y ejemplos prácticos de manera que tú mismo puedes realizar y entender sin inconvenientes.

Si quieres aprender sobre Data Science por estos sitios debes pasar.

Como te puedes dar cuenta es una lista extensa, pero de seguro te servirá para ampliar tus referencias sobre BI, Big Data y Data Science, estar actualizado y mantenerte informado sobre distintas tendencias y novedades de nuestro interés.

Por supuesto pude haber dejago alguno por fuera…

Cual otro me recomendarías? Crees que dejé pasar uno importante para ti? Te gustaría crear otra sección? Cuéntame tus favoritos y ampliamos la lista!

Tecnologías Big Data

14 julio, 20168 septiembre, 2016 John Alexander 4 comentarios

En anteriores artículos hemos visto distintos aspectos que debemos tener presente antes de iniciar nuevos proyectos con fuentes emergentes, por eso es necesario conocer algunas características que deben cumplir las Tecnologías Big Data a usar, de manera que nos permitan obtener el máximo valor de las fuentes con las que antes no contábamos y que al día de hoy nos pueden brindan el conocimiento agregado frente a nuestra competencia.

Que debemos considerar?

Debemos tener la capacidad de almacenar, procesar y visualizar datos de manera amigable y eficaz que nos permita en poco tiempo tomar determinaciones como: lanzar nuevas campañas no solo de captación si no también de fidelización o retención de clientes, de identificación de tendencias que permitan el diseño y creación de nuevos productos o servicios, incluso poder determinar bajo ciertas lecturas de distintos aparatos electrónicos el estado de salud actual y a futuro de los pacientes.

Todo lo anterior es posible siempre y cuando identifiquemos y conozcamos las características del gran abanico de tecnologías especiales que podemos utilizar para nuestro proyecto Big data, las cuales al igual que en ocasiones anteriores, debemos tener presente que dependemos del alcance y de los requerimientos de nuestro proyecto, alinear los objetivos que queremos cumplir y elegir las que mejor se adapten para nuestra solución.

Veamos cuales serían:

Distribución de grandes cantidades de información.
Almacenamiento y tratamiento de datos no estructurados o datos emergentes.
Tratamiento de los datos con análisis avanzados en tiempo real o histórico.
Visualización adecuada y adaptada a los nuevos datos.

Distribución de grandes cantidades de información.

Permitir distribuir cargas y minimizar tiempos de procesamiento y acceso a la información es algo muy importante a tener en cuenta, disminuir los costos y obtener una solución robusta que garantice el almacenamiento y procesamiento de grandes flujos de información nos permitirá escalar cada día nuestras tomas de decisiones.

Dentro de este ámbito podremos encontrar tecnologías como:

Hadoop
Stream analytics
Data integration

Tecnología de Distribución de datos – Ecosistema Hadoop

Almacenamiento y tratamiento de datos no estructurados o datos emergentes.

Otro gran reto es poder almacenar los distintos tipos de datos, datos que claramente no podremos almacenar con buen rendimiento y administración en sistemas transaccionales, en este aspecto encontramos las bien conocidas bases de datos NoSql, de manera que combinadas con los puntos anteriores o simplemente con su uso independiente, nos permiten crear soluciones altamente escalables.

Dentro de este ámbito podremos encontrar bases de tipo:

Documentales
Columnares
Clave-Valor
Grafos

Tencologías Big Data - NoSql — Tencologías de Almacenamiento – NoSql

Tratamiento de los datos con análisis avanzados.

Una vez obtenida y almacenada la información es necesario pasar a un aspecto importante del proyecto, como explotar y extraer conocimiento del mismo, para conseguir tal fin es necesario capacitarnos o dotarnos de profesionales con un perfil más analítico y estadista, conocidos como Científicos de Datos, quienes nos ayudan a descubrir aspectos que no conocemos de los datos, obtener conocimiento predictivo y accionable a partir de los datos y comunicar historias relevantes de nuestros negocios a partir de los datos…en pocas palabras, nos dotan de lo que no sabemos y lo que nos gustaría saber.

Dentro de este ámbito podremos encontrar muchas tecnologías entre algunas:

R, Weka, SPSS, SAP HANNA, SAS
Map Reduce, Text Mining
Procesamiento en paralelo, Clustering, KNN, Machine learnin, Redes bayesianas, etc.
Análisis en la nube

Tencologías Big Data - Analiticas — Tecnología de Analítica de Datos

Visualización adecuada y adaptada a los nuevos datos.

Un aspecto muy importante es poder disponer de una herramienta que te permita visualizar la información una vez tratada, que sea intuitiva, rápida y en la puedas dar sentido a los datos, como bien buscamos obtener, relacionar, analizar y extraer el gran valor de los datos, facilitar la toma de decisiones, segmentar y clasificar mejor a nuestros clientes nos brinda de un valor agregado frente a nuestra competencia.

Dentro de este ámbito podremos encontrar algunas tecnologías como:

Tecnologías Big Data - Visualización Mapas Cartodb — Tecnología de Visualización de Datos – Mapas Carto

Como vimos en el artículo, hay distintos aspectos a tener presente a la hora de elegir las distintas Tecnologías Big Data para nuestros proyectos, la aproximación anterior nos dá una idea de lo necesario que es planificar y detallar todo lo necesario antes de intentar hacer realidad un proyecto de Big Data.

Que piensas de las anteriores Tecnologías Big Data? Consideras adicionar alguna…cual sería? Conocer alguna Tecnología Big Data que complemente las anteriores mencionadas?

Teorema CAP: Explicación Teórica y Práctica

30 junio, 20168 septiembre, 2016 John Alexander 2 comentarios

Muchos de nosotros estamos interesados por el Big Data, pero es necesario conocer un poco más a fondo aspectos teóricos para poder elegir la base de datos NoSql que mejor se adapta a nuestro proyecto, eso lo proporciona en gran medida el Teorema CAP.

Como lo vimos en el anterior post, existen muchas bases de datos NoSQl, que a su vez nos proveen distintas ventajas necesarias para implementar soluciones altamente distribuidas y escalables, las cuales dentro de sus características principales se encuentra el cumplimiento del Teorema CAP, el cual representa dentro del diseño de nuestra implementación un reto para definir que es lo más importante, si la Consistencia o la Disponibilidad.

Teorema CAP

El Teorema CAP aplica en ambientes altamente distribuidos, el primero en referenciarlo fue el profesor Eric A. Brewer, quien en el año 2000 en un simposio del ACM sobre los principios de la computación distribuida (PODC)…explicó que cuando se trata de diseño y despliegue de aplicaciones en entornos distribuidos solo podremos garantizar 2 de los siguientes 3 requerimientos:

The three requirements are: Consistency, Availability and Partition Tolerance, giving Brewer’s Theorem its other name – CAP.

2 años más tarde, fue comprobado y convertido en teorema, por lo cual, veamos a fondo cada uno de los requerimientos anteriormente mencionados:

Consistency (Consistencia)

Todos los nodos deben garantizar la misma información al mismo tiempo, si insertamos datos (todos los nodos deben insertar los mismos datos), si actualizamos datos (todos los nodos deben aplicar la misma actualización a todos los datos) y si consultamos datos (todos los nodos deben devolver los mismos datos).

Para tal efecto la comunicación entre los nodos debe ser de suma importancia, podríamos por ejemplo, emitir confirmación de inserción de un dato, una vez dicho dato se grabo en todos los nodos de nuestra réplica.

Availability (Disponibilidad)

Independientemente si uno de los nodos se ha caído o a dejado de emitir respuestas, el sistema debe seguir en funcionamiento y aceptar peticiones tanto de escritura como de lectura.

Una vez se pierde comunicación con un nodo, el sistema automáticamente debe tener la capacidad de seguir operando mientras éste se restablece y una vez lo hace, se debe sincronizar con los demás.

Partition Tolerance (Tolerancia al Particionado de Red)

El sistema debe estar disponible así existan problemas de comunicación entre los nodos, cortes de red que dificulten su comunicación o cualquier otro aspecto que genere su particionamiento.

Por lo general los ambientes distribuidos están divididos geográficamente, donde es normal que existan cortes de comunicación entre algunos nodos, por lo cual, el sistema debe permitir seguir funcionado aunque existan fallas que dividan el sistema.

A partir de lo anterior y dependiendo de lo definido en el proyecto, solo podemos garantizar 2 de los 3 aspectos mencionados anteriores. Siendo la disponibilidad desde mi punto de vista uno de los principales aspectos a tener en cuenta…pues debemos ser conscientes que en estos momentos son cada vez más impacientes nuestros clientes y menos susceptibles a esperar el restablecimiento del servicio (Aunque muchas veces se resuelvan los problemas en cuestión de segundos).

Veamos ahora los posibles escenarios o combinaciones permitidas para cumplir lo anterior.

Cuál escenario elegir?

Para tal efecto veamos un ejemplo: Supongamos que nuestra organización se dedica a la distribución de productos de aseo, somos una organización líder en el mercado y constantemente recibimos pedidos de todo tipo de sectores y todo tipo de cliente en nuestro país. Demandamos tantos pedidos que decidimos dividir y sectorizar nuestro país en 4 grandes Clúster principales y cada uno cuenta con 4 nodos en réplica, quienes se encargaran de tomar los pedidos y dar respuestas internas y externas.

Uno de nuestros clientes desea realizar un pedido por una cuantiosa suma de dinero, aportando un gran ingreso en el Sector A, pero uno de los nodos de la réplica del Sector A ha perdido comunicación con los demás…

Ahora veamos cómo aplicar nuestro ejemplo a cada posible escenario entregado por el Teorema:

1. CP (Consistency – Partition Tolerance)

El sistema siempre garantizará Consistencia aunque existan problemas de conexión entre los nodos (Particiones de red) y no se asegura Disponibilidad.

Teorema CAP - CP — Teorema CAP – Consistency, Partition Tolerance

Como toleramos particiones de red, nuestro sistema recibe la petición, pero como además priorizamos consistencia, es necesario que el pedido se aplique y confirme en todos los nodos, como uno de ellos no está disponible…el pedido no se puede realizar.

2. AP (Availability – Partition Tolerance)

El sistema siempre estará Disponible aunque existan problemas de conexión entre los nodos (Particiones de red). Aunque pueda mostrar datos temporalmente Inconsistentes.

Teorema CAP - AP — Teorema CAP – Availability, Partition Tolerance

Siguiendo con el ejemplo, aquí toleramos particiones de red igualmente por lo cual el sistema recibe y aplica la petición, como no garantizamos consistencia, no es necesario que se confirme el pedido en todos los nodos.

3. CA (Consistency – Availability)

El sistema siempre estará Disponible con información Consistente. Por lo cual el sistema no soporta perdida de comunicación entre los nodos (Particiones de red).

Teorema CAP - CA — Teorema CAP – Consistency, Availability

En este caso como no soportamos particionamiento, el sistema debería fallar y presentar un mensaje a nuestro cliente de “Inténtalo más tarde por favor”, puesto que prácticamente no estaríamos garantizando ningún tipo de consistencia.

Si por el contrario no existiera particionamiento, aplicaríamos todas las peticiones y garantizábamos consistencia confirmando cada petición en todas las réplicas, debido a que estamos en un ambiente distribuido es poco probable que se dé el escenario ideal donde nunca se creen particiones de red.

Igualmente vemos con lo anterior que es necesario priorizar en la disponibilidad, personalmente no utilizaría el escenario CA pues prácticamente quedaríamos fuera de servicio total, lo que causaría miles de llamadas para reportar errores, quejas o incluso perdidas de clientes.

Como acabamos de ver, es sumamente importante definir desde el principio como desea disponer de la información el cliente, en algunos casos podríamos combinar distintas bases NoSQL que nos permita cubrir ciertas necesidades presentadas anteriormente, todo es un juego de análisis y dimensionalidad de nuestro proyecto, para tal efecto y mayor guía, veamos una clasificación de las distintas Bases de datos, donde claramente veras como una buena elección y combinación de bases te puede ser de gran ayuda.

CAP-NoSQLDB

Que te pareció el Teorema CAP? Que piensas respecto a la teoría y a la práctica del teorema? Alguna experimentaste la necesidad de elegir alguna opción del Teorema CAP?

sin un uso mesurado de los datos podrían ser nuestro talón de aquiles

Los nuevos datos, nuestro talón de aquiles?

23 junio, 201618 agosto, 2016 John Alexander Deja un comentario

Todos sabemos que la gran ventaja competitiva que vivimos hoy en día se soporta sobre el tener información adicional de nuestros clientes para entender su comportamiento y lograr predecir qué decisión tomará. Pero, qué pasaría si los datos que recolectamos terminan infringiendo la privacidad de las personas?

Los datos son materia prima para las organizaciones y su análisis un bien imprescindible, las organizaciones que logren explotar el potencial del Big Data contaran con una ventaja competitiva muy importante…pues para nadie es un secreto que conocer mejor a nuestros clientes, sus gustos y preferencia nos puede ayudar a mejorar nuestra comunicación con ellos, convirtiéndola en el mejoramiento continuo de nuestros servicios y productos, a fin de lograr una fidelización más estable y duradera.

Es por eso que antes de decidir encaminarse hacia un proyecto Big Data debemos tener claro a donde queremos llegar y cómo lo queremos lograr, debemos prestar atención a que datos vamos a necesitar recolectar? que vamos a hacer con los datos recolectados? y si en realidad vamos a necesitar todos esos datos recolectados.

Es necesario recolectar cualquier dato?

Es una de las primeras preguntas que debemos hacernos cuando nos vamos a encaminar en nuevo proyecto, mucho más si estamos pensándolo desde el punto de vista evolutivo del Business Intelligence. Recolectar por recolectar esta demás, si bien nos encontramos en una era donde los datos son los que mandan, también nos encontramos en la era donde hay que saber cuáles son los más óptimos y cómo podemos sacar provecho de ellos. De nada sirve recolectar por recolectar bancos y bancos de datos que a fin de cuenta terminen por perturbar a las personas.

Por ejemplo

Supongamos que tenemos varios puntos de ventas de nuestra línea de productos en nuestra ciudad, podríamos aprovechar la información georreferencia que generan nuestros clientes o seguidores (Muchas veces sin su consentimiento aunque cada vez más son más instruidos y capacitados de cara a la tecnología) para que cuando se encuentren cerca de alguna de nuestros puntos de ventas, les enviemos mensajes de promoción mediante mensajes directos al correo o al móvil. Esto minimiza el spam, minimiza nuestros esfuerzos por llenar de publicidad a nuestros clientes y nos permite hacer un marketing más directo y efectivo. Imagínate la sorpresa del cliente cuando unos metros antes de pasar por tu punto de venta le llegue un bono de descuento del 30% o 40% para un producto que ha consumió anteriormente o para que pruebe un nuevo producto.

Este ejemplo no está para nada lejos de la realidad, pero a nuestros clientes les gustaría la idea de que sepas en donde se encuentra? En cierta forma eso estás haciendo, estas identificando un patrón de movilidad para poder saber en qué momento pasará cerca de alguno de tus puntos de ventas, una ventaja para ti porque dispones de información que no tiene tu competencia y te limitas a hacer un marketing más directo…pero por parte del cliente queda la sensación de verse perseguido o que están violando su privacidad.

Debemos tener presente hasta qué punto debemos llegar para nuestro beneficio y el de los clientes, muchas veces por el afán de recolectar y recolectar información hacemos uso extremo de los datos y terminamos perjudicándonos nosotros mismos.

No es lo mismo saber los gustos y preferencias de nuestros clientes, que saber siempre y en cada momento en donde se encuentra.

Que debemos tener en cuenta?

Debemos identificar los datos que nos van a servir a cumplir nuestros objetivos pero al mismo tiempo minimizar el riesgo de irrumpir en la privacidad de las personas, generalmente queremos valernos dependiendo de nuestra proyección de aspectos importantes como: que se dice de nosotros en la red o cuales son los gustos o preferencia de las personas en la red, en este contexto podemos contemplar gustos, favoritos, comentarios, post, grupos sociales, sitios frecuentes, sitios que frecuenta, fotos etc. Esto nos serviría para segmentar nuestras campañas de publicidad, para impulsar productos existentes o crear nuevos productos basados en lo que se dice, algo mucho más versátil y de impacto.

Pero también podríamos querer predecir cuál será el próximo producto que consumirá el cliente en su próxima compra, si dejara de ser cliente nuestro o si por el contrario es un riesgo para nuestra proyección, que producto consumirá basado en la recomendación de un amigo o que piensa regalar en el próximo día del padre, en este caso necesitaríamos contemplar datos históricos de transacciones de compras de nuestros productos combinados con gustos y preferencias y grupos y preferencias de sus amigos o seguidores, etc.

Como ven, en los ejemplos anteriores no fue necesario en ningún momento los datos de ubicación, pues analizamos datos históricos combinados con actuales provenientes de nuevas fuentes y que en cierta forma no atentamos contra la privacidad del usuario.

Qué pasaría si se sienten amenazados?

Existen diversas acciones que pueden tomar las personas una vez sienten miedo acerca de lo que sucede con su información en la red. La primer acción será empezar minimizar y prestar muchas más atención a los datos que brinda, dejará de compartir sus gustos, preferencias, ya no publicará fotos o comentarios sobre sitios preferidos y buscará la manera de todo portal o aplicación (haciendo referencia al ejemplo anterior) su ubicación geográfica.

Esto claramente es un problema para tu organización, pues gracias al uso excesivo de los datos prácticamente terminaste perdiendo un flujo de información valioso para tu estrategia ya implementada, ahora, si tu estrategia se basada en los datos que ya han dejado de proporcionar…no se convertiría proyecto en un futuro fracaso.

Por eso y para finalizar, me gustaría mencionar algunos aspectos que podríamos tener presente antes de utilizar datos de redes sociales e internet en general para nuestro beneficio, es cierto que existen leyes que permiten salvaguardar la información personal, pero hoy por hoy que nos podemos valer de cualquier dato de los usuarios, es necesario que la utilicemos con mesura y privacidad.

Aspectos a tener en cuenta:

Hacer saber a nuestros clientes que tipo de datos suyos vamos a usar para generar un beneficio mutuo.
Hacer saber lo métodos de utilización y privacidad de datos que vamos a aplicar para mejorar nuestros programas publicitarios.
Si vamos a utilizar georreferenciación, enfatizar y promover su uso mediante incentivos y hacer saber su política de explotación para minimizar el miedo que esto conllevaría.
Dinamizar nuestros productos y hacerlo saber para recordarle al cliente que su información es valiosa y que la tenemos siempre en cuenta.
Ejercer participación activa en todos los medios de donde vamos a recolectar información, esto generar un voto de confían y buena imagen frente al cliente. A fin de cuenta ambas partes se van a beneficiar.

Como vemos, podemos aprovechar el Big Data para múltiples beneficios pero siempre definiendo y enfatizando la delgada línea de lo que queremos lograr, pues no nos sirve de nada recolectar datos donde una vez almacenados no nos sirvan para cumplir nuestros objetivos y más bien terminen perjudicándonos.

Que otro aspecto deberíamos tener en cuenta para implementar nuestro proyecto Big Data de cara a los datos recolectados de los usuarios en internet? Crees que es necesario mantener siempre informado al usuario de lo que vamos a hacer y cómo lo vamos a hacer?

Bases de Datos NoSQL: Especiales para Big Data

9 junio, 20168 septiembre, 2016 John Alexander 3 comentarios

Hoy en día nos enfrentamos a un gran cambio de paradigma en cuanto a almacenamiento y procesamiento de datos se trata, gracias a la evolución de grandes compañías como Google, Amazon, Linkedin, Facebook y muchas más, han salido a luz una seria de soluciones en modalidad Opens Source que nos benefician en gran medida.

Las Bases de Datos NoSQL tienen como principal característica que solucionan los principales problemas que presentábamos en la actualidad:

Escalamiento horizontal: Ya no necesitamos depender de un proveedor de hardware para potenciar nuestras soluciones.
Disponibilidad de los datos: Podemos distribuir en cuanto equipo y capacidad económico dispongamos si necesidad de que sean robustos.
Solución a fallas o cortes de red: Disponemos de un ecosistema interconectado el cual siempre en gran medida vamos a tener disponibilidad de los datos.

Actualmente contamos con una tecnología que mezcla una seria de características que nos ayudan en cierta parte a cubrir los aspectos anteriormente expresados, tal como lo dije, éste cambio de paradigma nos permite entre otras cosas almacenar y tratar grandes bancos de información, tener información disponible, información incluso definida geográficamente y tolerar errores por falta de conexión…éstas soluciones las conocemos como Bases de Datos NoSQL.

Un poco de historia…

El término NoSQL en cierta forma se referenció hace un buen tiempo. Inicialmente fue usado a finales de los 90’s cuando Carlo Strozzi desarrolló su propio SGBD el cual no usaba SQL, ésta base de datos almacenaba sus tablas dentro de archivos ASCCI donde cada tupla de valor era representada por un fila de campos separados por Tabs, debido a que no usaba SQL para consultar los datos, básicamente ejecutaba Scripts sobre el Shell de UNIX.
Luego con el inminente éxito Google en el 2003 se dio a luz el primer proyecto de bases de datos NoSQL llamado BigTable y un poco después apareció Marklogic para el 2005, por supuesto todo esto debido a la necesidad de cubrir ciertas limitaciones que encontraban en sus sistemas SGDB tradicionales, las cuales debido al crecimiento de usuarios, de datos y procesamiento cada vez mayor y de peticiones en tiempo real, debían buscar otras alternativas de almacenamiento y disponiblidad de datos.

A partir de éste momento distintas organizaciones consolidadas como Linkedin, Facebook, Last.fm, Powerset, Couch.io hicieron lo mismo y presentaron sus proyectos en un distintivo meetup de San Francisco en Junio del 2009 presentado por Johan Oskarsson donde explicaban y debatían ciertos aspectos sobre estas nuevas bases de datos.

Entrando en materia

Ya teniendo claro de donde provienen estas fascinantes bases de datos, vamos a verlas un poco más a fondo.
Las bases de datos NoSQL tienen como principal característica la no utilizan del lenguaje de consulta SQL, conocido por todos nosotros, pues al proveer un ambiente altamente distribuido sería muy complicado realizar algún tipo de Join o consulta entre todos los servidores de un Cluster. También están diseñadas para permitir almacenar y gestionar grandes bancos de información…por ejemplo, Facebook hasta hace un año atras almacenaba, consultaba y analizaba más de 30 Petabytes de datos generados por los usuarios!!!

Existen distintos tipos de bases de datos y cada una nos permite solucionar distintos problemas debido a su enfoque particular.
Al existir distintos tipos de bases NoSQL, podremos obtener la capacidad de utilizar distintas tecnologías dentro de un mismo ambiente, cada una colaborando en un aspecto y funcionalidad puntual, esto se conoce como Persistencia Poliglota.

Características

Dentro de las principales características podemos encontrar:

No usan SQL como lenguaje de consulta estándar
La información almacenada no requiere un formato o esquema definido (Schemalees)
Permiten escalabilidad horizontal
No garantizan ACID, esto para mejorar el rendimiento y disponibilidad
Presentan operaciones atómicas
Permiten replicación y distribución
Almacenamiento de grandes bancos de información
Solo pueden cumplir 2 de las tres caracteristicas del teorema CAP: Tolerancia, Disponibilida y Tolerancia a Fallos o Particionamiento de Red

Tipos de NoSQL

Aunque a partir de los últimos años se han venido creando distintos tipos de bases datos, presentaré las más utilizadas. Es necesario aclarar y recordar que es importante analizar si verdaderamente es necesario aplicar cualquiera de estas bases para solución de nuestros problemas, pues debemos dedicar tiempo a investigación o incluso dinero si deseas tercerizar el desarrollo.

1. Documentales

Como su nombre lo indica, en ellas podemos almacenar datos de tipo documento, los cuales pueden ser de tipo XML, JSON o BSON principalmente. Como indiqué anteriormente, no es necesario seguir una estructura definida para cada documento, lo cual brinda inmensa versatilidad. Son muy comunes y se acoplan muy bien a soluciones donde deseamos extender.

A continuación veamos la comparación de dos documentos:

Ejemplo de base de datos NoSQL Documental

Algunas de las bases de datos más populares de éste tipo son:

MongoDB, CouchDB, OrientDB, RavenDB

2. Familia de Columnas o Columnares

Almacenan los datos cambiando nuestra lógica transaccional de filas a columnas. Tienen como característica principal que dentro de una fila podemos encontrar distintas columnas relacionadas a un Key y a su vez cada columna contiene un par (Key-Value) que hace referencia al campo y su valor. La ventaja que presenta es que no es necesario que todas las filas tengan las mismas columnas ni la misma cantidad de columnas, permitiendo adicionar columnas a cualquier fila y en cualquier momento.

Veamos una imagen como referencia:

bases de datos NoSQL ColumnFamily — Ejemplo de bases de datos NoSQL Column Family

Algunas de las bases de datos más populares de éste tipo son:

Cassandra (Facebook), HBase (Twitter), Hypertable, Amazon SimpleDB

3. Llave-Valor (Key-Value)

Este tipo de bases podríamos decir que son las más simples, en ellas podemos almacenar por cada registro una tupla de Key-Value. Para obtener los valores simplemente consultamos por el Key y por supuesto es necesario definir una Key que defina nuestra estructura lo mejor posible, entre tanto podemos encontrar tipo de valores como: Listas, String, Arrays, Arrays ordenados, Hash con los cuales podríamos relacionar otros campos, Arrays de bits. Variando de producto en producto.

Veamos una representación:

bases de datos NoSQL Key Value — Ejemplo de bases de datos NoSQL Key-Value

Algunas de las bases de datos más populares de éste tipo son:

Redis, Riak, Voldemort (LinkedIn), Amazon DynamoDB, Berkeley DB

4. Grafos

Estas bases de datos particularmente nos ayudan a almacenar datos relacionados bajo muchos niveles, imaginémonos representaciones de amigos de mis amigos o productos que relaciones a distintos clientes de distintas nacionalidades. Al ser de tipo grafo, tenemos dos elementos distintivos: Los Nodos, cuya finalidad es representar las entidades (Personas, Productos) con sus respectivas propiedades (Cuit,Nombre) y las Relaciones o Aristas, cuya finalidad será representar tanto el tipo como la dirección de nuestra relación (Gustos, Si amigo o no, Ubicación) con sus respectivas propiedades. También podemos hacer consultas transversales de modo que podemos ampliando el rango de resultados.

Veamos una representación:

Ejemplo bases de datos NoSQL Grafos en . Fuente: cmaps

Algunas de las bases de datos más populares de éste tipo son:

Neo4J (eBay), Inifinite Graph, FlockDB

Algunas veces podemos encontrar que alguna base de datos entra en más de una clasificación, esto debido a que sus características le permiten adaptarse a distintas aplicaciones y soluciones.

Como podemos ver, tenemos un gran abanico de soluciones capaces de brindarnos distintas capacidades para potenciar nuestras plataformas BI Tradicionales o para empezar nuestros proyectos de Big Data. Debemos analizar sus funcionales y nuestro problema a raíz de poder cubrir nuestras necesidades.

Habías escuchado alguna de las bases de datos NoSQL mostradas anteriormente? Cuál de éstos tipos te parece más interesante? Cómo podrías usarlas? Haz usado alguna de las anteriores?

Las 6V del Big Data

25 mayo, 201618 agosto, 2016 John Alexander 3 comentarios

En este artículo abordaré los principales aspectos del Big Data, generalmente denominadas como Las 6V del Big Data, mostrando en modo comparativo contra Business Intelligence Tradicional de manera que podamos visualizar fácilmente los beneficios que nos proporciona.

Tal como nos dimos cuenta en el artículo anterior, el Big Data es la tendencia principal del BI hoy en día.
Así que, porque no dedicarle un artículo completo?

Que es Big Data?

Cuando hablamos de Big Data, nos referimos específicamente a un conjunto de técnicas y tecnologías que nos permiten almacenar, clasificar y analizar grandes volúmenes de datos, solucionando algunas limitantes que sufren actualmente nuestras plataformas de Business Intelligence Tradicional, entre otras la gestión y administración de nuevas fuentes de información.

Desde el contexto del BI Tradicional, estamos acostumbrados a tratar datos con crecimiento diario o mensual no muy variado, pero siempre con el mismo tipo de dato (Estructurado y definido), las mismas fuentes (Tales como: Archivos Excel, TXT, ODS o Aplicaciones empresariales relacionales, entre otros), incluso contando con el mismo rango de tiempo de carga aprox. de 4 a 7 horas diarias…pero que pasaría, si nuestra organización quisiera contar con información en tiempo real de lo que opinan sus clientes sobre un producto o servicio específico?

Vamos a un ejemplo de actualidad, la manera más ideal de obtener dicha información es mediante la medición en tiempo real de nuestras redes sociales.

Por ejemplo, todos hemos visto como las programas de televisión sacan provecho de esto, en particular con su programación en vivo…para un partido de futbol crean un Hashtag #FutbolParaTodos y mientras transmiten también muestran la cantidad de tweets o interacciones del público.

Ahora, volviendo a nuestra pregunta anterior…si nuestra organización o programadora de televisión quisiera incluir éste dato particular como métrica y así medir su impacto en Twitter, como lo podría soportar nuestra plataforma BI Tradicional?

Analícemelo como nueva fuente de datos:

Tipos de Datos: Claramente sería un nuevo tipo de dato, pues nuestra fuente de información que en este caso sería Twitter nos proporcionaría tweets en su propio formato, el cual en este caso serían documentos en formato JSON (JavaScript Object Notation).

Fuente de Datos: Estamos hablando de una fuente externa la cual no controlamos, estos datos no serían estructurados y ni tampoco cumplirían en primera instancia nuestros aspectos de meta data, ni análisis de información estandarizados por lo tanto esto conlleva a un gran trabajo de transformación.

Tiempo de Carga: Los flujos de datos deberán tomarse con lapsos de tiempo mínimos ya que como todos sabemos pueden haber miles de tweets por segundo, si nuestra solución tradicional demora en su carga diaria mínimo 4 Horas…realmente lo podríamos soportar?

Cantidad de Datos: Todos sabemos que pueden haber cientos de miles de tweets, entonces lo más probable es que la cantidad de nuevos datos que obtendremos para nuestra métrica va a ser considerablemente grande.

Ahora, nuestra solución BI Tradicional cuenta con una base de datos transaccional capaz de soportar cada uno de estos aspectos?…así que es momento de preguntarnos:

Nuestra base de datos transaccional soportará grandes volúmenes de datos?
Nuestra base de datos transaccional soportará grandes inserciones por segundo de datos?
Nuestra base de datos transaccional soportará este nuevo tipo de dato?
Nuestra base de datos transaccional podrá convivir con variedad de datos?

Si bien nuestra base de datos transaccional podría responda al menos a una de las preguntas anteriores, para cumplir nuestro objetivo debemos responderlas todas y ciertamente no lo estamos haciendo.

Para tal efecto y para solucionar estas limitantes fue creado el Big Data, que si bien no reemplazará nuestra solución BI Tradicional…si la potenciará o evolucionará con nuevos datos.

Definiendo Las 6V del Big Data

1. Volumen

Refiere a la capacidad de almacenar grandes bancos de información.

Nuestras soluciones de BI Tradicional contienen un volumen de datos habitual y constante, llegando a tamaños de almacenamiento no mayores a los gigabytes.

Conforme se genera la necesidad de incluir nuevas fuentes emergentes la cantidad de datos crece a un ritmo abismal y nuestro Data Warehouse debe ser capaz de soportar el almacenamiento y el procesamiento de dichos datos para posteriores análisis.

Existen distintas fuentes de datos emergentes que generan grandes cantidades de información y en muy corto tiempo, por supuesto superan considerablemente los tamaños básicos de almacenamiento de soluciones BI Tradicional. (Imagina el típico ejemplo de la cantidad inmensa de tweets que se generan por segundo) .

Podríamos considerar nuevas fuentes de datos emergentes en BI: las redes sociales, sensores de movimiento, sensores de infraestructuras, páginas web, blog, aplicaciones, georeferenciación…entre otros.

2. Velocidad

Las nuevas fuentes emergentes, al igual que generan gran cantidad de datos…también generan datos a gran velocidad y esto es muy visible con nuestro ejemplo actual: muchos tweets o información de redes sociales por segundo o incluso imágenes de vídeo de una transmisión de Streaming de algún evento particular.

Todos estos datos pueden ser esenciales a la hora de tomar una decisión, en el caso de las redes sociales como bien sabemos poder identificar lo que se dice, se piensa o se cree de nuestra organización, por otro lado en las imágenes del evento podríamos validar en tiempo real los gestos de las persona y saber si les gusta o no lo que están percibiendo.

Así púes nuestros DW no soportarían tan grandes flujos de velocidad constante.

3. Variedad

Nuestros DW actualmente cuentan con datos estructurados, datos definidos para la información de nuestros clientes, productos y demás, cuya finalidad nos permite incluir nuevas fuentes adaptadas fácilmente. Pero con las nuevas fuentes disponibles empezamos a encontrar tipos de datos que antes no pensábamos fuera posible contar, entre los que podríamos encontrar: Imágenes o Fotografías, Vídeo, Texto, XML, JSON, Clave-Valor, Audio, Señales de Sensores, Estados de Tiempo, Blog, HTML o incluso datos del Genoma humano…

Las bases de datos transaccionales que usamos en nuestro DW bien podrían almacenar estos tipos de datos, pero no sería de gran ayuda ya que no son óptimas y no nos permitiría extraer información de valor.

Las tecnologías de almacenamiento que usamos actualmente no cuentan con capacidades ni la disposición de alojar estos tipos de datos, por ende es necesario contemplar base de datos que nos brinde flexibilidad y diversidad en este aspecto.

4. Veracidad

Si bien nuestras fuentes existentes han pasado por un proceso de análisis y validación hasta definirse como información de valor para la toma de decisiones, de la misma manera debe suceder para las nuevas fuentes emergentes.

La veracidad o calidad del dato está definida por la elección de los registros de datos que verdaderamente aporten valor, directamente relacionada con la variedad ya que al tener distintos tipo de datos debemos implementar distintos modelos que satisfagan esta condición, es necesario contar con personal que ayude a filtrar y a mantener los datos completamente limpios y tratados para nuestra estrategia.

Al igual que el BI Tradicional debemos contemplar desde el inicio que nuestra finalidad es contar con bancos de datos que una vez tratados y analizados van a generar valor al negocio.

Está bien considerar que éste podría ser el primer escalón, pero no debemos olvidar que está directamente relacionada a los tipos de datos variables que vamos a contemplar.

5. Valor

Llegados a este punto, es bueno considerar que a pesar de que hemos incluido nuevas fuentes de datos, hemos contemplando el uso de nuevas tecnologías y que hemos generado valor con la inclusión de nuevas métricas y KPI a nuestra plataforma de BI Tradicional, sería interesante el pensar explotar y generar mucho más provecho a esta información.

Utilizando ciertamente técnicas, algoritmos y desarrollos que permitan predecir con un mayor peso de los datos algunas tomas de decisiones como por ejemplo: predecir comportamientos de nuestros clientes, el momento exacto para crear un nuevo producto o incluso identificar fraudes transaccionales, todo esto es posible si contamos con personas o herramientas que ayuden a la organización a descubrir lo que no sabe, obtener conocimiento predictivo y comunicar historias de datos relevante, generan mucha más confianza en la toma de decisiones desde los datos.

Especialmente estamos hablando de personas con perfil de Científicos de Datos.

6. Visibilidad

Hasta este punto todas y cada una de las V’s se complementan, contando con un gran banco de datos que nos provee información confiable, variable, actualizada y además nos está generando un valor importante frente a nuestra competencia, también es necesario empezar a contar con herramientas de visualización que permitan una manera fácil de leer nuestros nuevos análisis, que bien podrían ser estadísticos y que muy seguramente comprometería su desarrollo con nuestras herramientas de reporting que contamos actualmente.

Porque crees que tantas empresa de BI actualmente se enfocan en presenta un manera más fácil y flexible de presentar la información?

Para reflejar un poco ese aspecto, te comparto una de mis presentaciones con el software R donde represento de distintas formas de visualizar la oportunidad de tomar la decisión de renovar un servicio para una población especifica después de haber integrado distintas fuentes.

Visualización Analítica R en Big Data — Ejemplo de Visualización Analítica en R para Big Data

Espero que sea de tu agrado mi pequeña perspectiva del Big Data frente a la decisión de evolucionar nuestras plataformas BI Tradicional con su integración.

Qué opinas de las 6V del Big Data? Consideras que falta una nueva V? Crees que aún no se debería de considerar alguna de las V expresadas anteriormente?