Big Data I: “No dejéis que vuestras cabezas se vuelvan más grandes que vuestros sombreros”

En 2004 encontré mi vocación absoluta, empecé a devorar todo lo que caía en mis manos sobre analítica web, ahora me está pasando lo mismo con Big Data. ¿No os parece impresionante todo lo que tiene que ver con Big Data? A nivel de tecnología, de algoritmos, de modelos, … Hay tanto sobre lo que leer, aprender y poner en marcha que me faltan horas en el día. Así que he decidido hacer un pequeño resumen sobre todo lo que he ido aprendiendo en este último año, me da para muchos posts así que creo que seré monotema de aquí al otoño :)

El  90% de los datos de los que disponemos actualmente se ha generado en los últimos 2 años. Cada vez tenemos más datos y, cuando fue más barato almacenarlos que destruirlos, nació el Big Data. Ahora ha llegado la hora de sacarle partido.

Hay muchas definiciones sobre Big Data, estoy segura que irán saliendo más cada día. La definición que más se ajusta a cómo veo yo el Big Data es: la oportunidad de encontrar ideas en los tipos de datos y contenidos para tomar acción y que los negocios sean más ágiles. Porque el análisis de los datos debe llevarnos a tomar acción, no se pueden analizar cantidades ingentes de datos si el resultado no nos lleva a tomar decisiones y a cambiar la forma que tenemos de hacer las cosas.

Entonces… cuál es nuestra frontera? Hasta donde podemos llegar? Cómo lo hacemos? A medida que nuestra comunicación, el ocio y el comercio se han trasladado a internet y desde que internet se ha trasladado a nuestros teléfonos, coches, gafas… la vida puede ser registrada y cuantificada como nunca antes!

Empecemos por el principio, por  la base del Big Data, lo que llamamos las 3 Uves. V de Volumen de información, V de Variedad  de dicha información y V de Velocidad en el tratamiento de la información. Es decir, para ser Big Data debemos tener un gran volumen de información de diversas fuentes de origen y ser capaces de obtener conocimiento en real time.

Hay corrientes de analistas que defienden la 4ª uve… la Veracidad de dicha información… ¿Conocéis la historia de Google y la gripe? Google se jactó de que podía medir de forma más rápida e indolora la velocidad en que se extendía la epidemia de la gripe en el mundo. Y lo hizo: Google Flu Trends. Basó todo el conocimiento en la correlación que había entre las búsquedas de los usuarios sobre los síntomas y la epidemia en sí.

Google Flu Trends fue un fracaso, soy un poco dura pero es así. Básicamente porque los ingenieros no habían pensado en algo importante: la correlación no tiene por qué ser la causa, por lo que el no saber qué causa una correlación puede llevar a falsas conclusiones.  En este caso, desde Google no se pararon a pensar que mucha gente sana buscaba información sobre la epidemia para detectar síntomas, para saber cómo actuar, para estar actualizado sobre la epidemia…

Por lo tanto, no es tan fácil construir un algoritmo como pensaba Google. Pero esta historia nos deja una moraleja: No solamente hay que buscar la correlación entre dos métricas. También hay que encontrar la causa de dicha correlación. El ejemplo más claro de esta diferencia lo encontramos en la figura de abajo: El verano es la causa de un mayor consumo de helados y un número más alto de ahogos. Pero el aumento en el consumo de helados no causa más ahogo ni el aumento de ahogos causa más consumo de helados:

Ejemplo de diferencia causa-correlación


Entonces, ¿por dónde empezamos? La realidad es que actualmente el 80% del esfuerzo actual en Big Data se nos va en recopilar los datos e integrarlos. Supongo que esto irá a mejor con el tiempo por la sencilla razón de que no tenemos suficiente experiencia actualmente como para hacerlo de forma menos indolora. Pero deberíamos invertir el mismo tiempo que tardamos en integrar los datos en convertirlos en conocimiento.

Hasta ahora solamente éramos conscientes de lo que teníamos en nuestras BBDD o en nuestra herramientas de analítica online y offline. Ahora ha llegado el momento de ir más allá, mucho más allá, al poder cruzar nuestros datos con los datos de otras plataformas, sean de redes sociales, online, offline u open data. Nuestro éxito dependerá de los objetivos de negocio: Necesitaremos tenerlos muy claros para determinar qué tipo de dato necesitamos para poder encontrar causas que nos lleven a tomar decisiones.

Por lo que podemos afirmar que BIG DATA es la frontera de una compañía para almacenar, procesar y acceder a todos los datos que necesita para operar eficazmente, tomar decisiones, reducir riesgos, servir a los clientes y cumplir objetivos de negocio. El éxito vendrá con la identificación de los datos que necesitaremos para que aporten al análisis de la información y podamos sacar conclusiones que nos lleven a optimizar nuestra estrategia.

Podemos catalogar estos datos en tres grandes grupos. Por un lado tendríamos el SMART DATA, que trata de recopilar los datos que tienen que ver con nuestro negocio, mediante el uso de las diferentes plataformas de datos, sean offline u online. Aquí tendríamos los datos referentes a nuestras ventas, a nuestros productos, nuestros clientes, nuestro negocio... todos los datos que tienen que ver con nuestros objetivos.

El siguiente grupo es el IDENTITY DATA, que tiene que ver con la identificación física y online de los clientes o potenciales clientes enriquecido con sus gustos para poder personalizar al máximo nuestra oferta de productos o servicios, para dirigirnos a él por el canal adecuado, etc...

Finalmente el OPEN DATA, que compila todos los datos que existen de forma externa a nuestra empresa y que están a disposición de todo el mundo, nos ayudará a ponerle contexto a los demás datos y a predecir crecimientos y demás conocimiento de estas bases de datos gratuitas.

Tipos de Big Data

La combinación de estos tres tipos de datos nos permitirá tener una visión 360º de nuestro negocio/cliente, además de tener una gran cantidad de datos para combinar y relacionar de forma que nos permita realizar un análisis predictivo completo de cualquier área de nuestro negocio.

Lo primero que me viene a la cabeza cuando hablo de Big Data es la generación de ideas que podemos implementar para entender mejor el universo de nuestro negocio, lo que ya sabemos desde adentro y lo que hay fuera. Esto nos invita a optimizar nuestros procesos, a modificar nuestras cadenas de valores y formas de entender el progreso y así conducir nuevos negocios de datos.

Los tres núcleos más importantes en Big Data son el procesamiento de datos, por supuesto, ya que alcanza otras dimensiones con la cantidad de datos que tenemos a nuestra disposición pero también el poder manejarlos en el momento y poder tomar decisiones en el instante que ocurran las cosas, el acceso rápido a la información y el tratarla en el momento nos da un potencial increíble.

Finalmente tenemos el machine learning, el aprendizaje adaptativo según vayan ocurriendo las cosas. Como le pasa a Google, que va modificando su algoritmo y perfeccionando sus resultados según lo que va aprendiendo de diversas fuentes o a cualquiera de los sitios que ofrecen recomendaciones en base a lo comprado o consultado por los usuarios.

Esto es la base, si no estamos procesando los datos, no los manejamos en el momento y no nos beneficiamos del aprendizaje… ¿para qué almacenamos estos datos? El poder del análisis del Big Data es precisamente lo que hace que sea tan interesante para mí. De hecho, lo que más me interesa no es el entorno tecnológico, sino lo que se puede llegar a hacer con esa cantidad ingente de datos.

Esto es solamente el principio, 2014 está siendo el año de no parar! Estuve en el TechDay de Burgos en marzo hablando de Big Data (a partir del minuto 28), en Tecnológica Santa Cruz de Tenerife hablando de la necesidad de analizar la información y convertirla en conocimiento.

                
                                         En el Innova Bilbao en abril 2014

Además en abril he estado en Innova Bilbao hablando de cómo hornear buenas KPIs y acabo de llegar de Santa Cruz, Bolivia donde empieza a crecer el interés por el Big Data. Como os decía... esto es solamente el principio J

Etiquetas: