En 2004 encontré mi vocación absoluta, empecé a devorar todo
lo que caía en mis manos sobre analítica web, ahora me está pasando lo mismo
con Big Data. ¿No os parece
impresionante todo lo que tiene que ver con Big Data? A nivel de tecnología, de
algoritmos, de modelos, … Hay tanto sobre lo que leer, aprender y poner en marcha que me faltan
horas en el día. Así que he decidido hacer un pequeño resumen sobre todo lo que
he ido aprendiendo en este último año, me da para muchos posts así que creo que seré monotema de aquí al otoño :)
El 90% de los datos de los que disponemos
actualmente se ha generado en los últimos 2 años. Cada vez tenemos más
datos y, cuando fue más barato almacenarlos que destruirlos, nació el
Big Data. Ahora ha llegado la hora de sacarle partido.
Hay muchas definiciones sobre Big Data, estoy segura que irán saliendo más cada día. La definición que más se ajusta a cómo veo yo el Big Data es: la oportunidad de encontrar ideas en los tipos de datos y contenidos para
tomar acción y que los negocios sean más ágiles. Porque el análisis de los datos debe llevarnos a tomar acción, no se pueden analizar cantidades ingentes de datos si el resultado no nos lleva a tomar decisiones
y a cambiar la forma que tenemos de hacer las cosas.
Entonces… cuál es nuestra frontera? Hasta donde podemos
llegar? Cómo lo hacemos? A medida que nuestra comunicación, el ocio y el
comercio se han trasladado a internet y desde que internet se ha trasladado a
nuestros teléfonos, coches, gafas… la
vida puede ser registrada y cuantificada como nunca antes!
Empecemos por el principio, por la base del Big Data, lo que llamamos las 3
Uves. V de Volumen de información, V de
Variedad de dicha información y V de
Velocidad en el tratamiento de la información. Es decir, para ser Big Data
debemos tener un gran volumen de información de diversas fuentes de origen y
ser capaces de obtener conocimiento en real time.
Hay corrientes de analistas que defienden la 4ª uve… la
Veracidad de dicha información… ¿Conocéis
la historia de Google y la gripe? Google se jactó de que podía medir de forma
más rápida e indolora la velocidad en que se extendía la epidemia de la gripe
en el mundo. Y lo hizo:
Google Flu
Trends. Basó todo el conocimiento en la correlación que había entre las
búsquedas de los usuarios sobre los síntomas y la epidemia en sí.
Google
Flu Trends fue un fracaso, soy un poco dura pero es así. Básicamente porque los ingenieros no habían
pensado en algo importante: la correlación no tiene por qué ser la causa, por lo que el no
saber qué causa una correlación puede llevar a falsas conclusiones.
En este caso, desde Google no se pararon a
pensar que mucha gente sana buscaba información sobre la epidemia para detectar
síntomas, para saber cómo actuar, para estar actualizado sobre la epidemia…
Ejemplo de diferencia causa-correlación
Entonces, ¿por dónde empezamos? La realidad es que actualmente el 80% del esfuerzo actual en Big Data se nos va en recopilar los datos e
integrarlos. Supongo que esto irá a mejor con el tiempo por la sencilla
razón de que no tenemos suficiente experiencia actualmente como para hacerlo de
forma menos indolora. Pero deberíamos invertir el mismo tiempo que tardamos en integrar los
datos en convertirlos en conocimiento.
Hasta ahora solamente éramos conscientes de lo que teníamos
en nuestras BBDD o en nuestra herramientas de analítica online y offline. Ahora
ha llegado el momento de ir más allá, mucho más allá, al poder cruzar nuestros datos con los datos de
otras plataformas, sean de redes sociales, online, offline u open data.
Nuestro éxito dependerá de los objetivos de negocio: Necesitaremos tenerlos muy
claros para determinar qué tipo de dato necesitamos para poder encontrar causas que nos lleven a tomar
decisiones.
Por lo que podemos afirmar que BIG DATA es la frontera de una compañía para
almacenar, procesar y acceder a todos los datos que necesita para operar
eficazmente, tomar decisiones, reducir riesgos, servir a los clientes y cumplir
objetivos de negocio. El éxito vendrá
con la identificación de los datos que necesitaremos para que aporten al
análisis de la información y podamos sacar conclusiones que nos lleven a optimizar nuestra estrategia.
Podemos catalogar estos datos en tres grandes grupos. Por un
lado tendríamos el SMART DATA, que
trata de recopilar los datos que tienen que ver con nuestro negocio, mediante
el uso de las diferentes plataformas de datos, sean offline u online. Aquí
tendríamos los datos referentes a nuestras ventas, a nuestros productos, nuestros clientes, nuestro negocio... todos
los datos que tienen que ver con nuestros objetivos.
El siguiente grupo es el IDENTITY DATA, que tiene que ver con la identificación física y
online de los clientes o potenciales clientes enriquecido con sus gustos para
poder personalizar al máximo nuestra oferta de productos o servicios, para dirigirnos a él por el canal adecuado, etc...
Finalmente el OPEN
DATA, que compila todos los datos que existen de forma externa a nuestra
empresa y que están a disposición de todo el mundo, nos ayudará a ponerle contexto a los demás datos y a predecir crecimientos y demás conocimiento de estas bases de datos gratuitas.
Tipos de Big Data
La combinación de estos tres tipos de datos nos permitirá
tener una visión 360º de nuestro negocio/cliente, además de tener una gran
cantidad de datos para combinar y relacionar de forma que nos permita realizar
un análisis predictivo completo de cualquier área de nuestro negocio.
Lo primero que me viene a la cabeza cuando hablo de Big Data
es la generación de ideas que podemos implementar para entender mejor el universo
de nuestro negocio, lo que ya sabemos desde adentro y lo que hay fuera. Esto
nos invita a optimizar nuestros
procesos, a modificar nuestras cadenas de valores y formas de entender el
progreso y así conducir nuevos negocios de datos.
Los tres núcleos más importantes en Big Data son el procesamiento de datos, por supuesto,
ya que alcanza otras dimensiones con la cantidad de datos que tenemos a nuestra
disposición pero también el poder
manejarlos en el momento y poder tomar decisiones en el instante que
ocurran las cosas, el acceso rápido a la información y el tratarla en el momento nos da un potencial increíble.
Finalmente tenemos el machine
learning, el aprendizaje adaptativo según vayan ocurriendo las cosas. Como
le pasa a Google, que va modificando su algoritmo y perfeccionando sus
resultados según lo que va aprendiendo de diversas fuentes o a cualquiera de
los sitios que ofrecen recomendaciones en base a lo comprado o consultado por
los usuarios.
Esto es la base, si no estamos procesando los datos, no los
manejamos en el momento y no nos beneficiamos del aprendizaje… ¿para qué
almacenamos estos datos? El poder del análisis del Big Data es precisamente lo
que hace que sea tan interesante para mí. De hecho, lo que más me interesa no
es el entorno tecnológico, sino lo que se puede llegar a hacer con esa cantidad
ingente de datos.
En el Innova Bilbao en abril 2014
Etiquetas: big data