Data Lake, más allá del Big Data

La velocidad con la que se mueve las TIC parece no aminorar nunca. De este modo, hace poco os presentábamos los Big Data como una herramienta indispensable para las empresas a la hora conocer los patrones de consumo y comportamiento de sus clientes y, sobre todo, descubrir nuevas áreas de negocio.

De esta forma, un minorista puede conocer mejor los gustos de sus clientes y sus costumbres gracias al histórico de compras en sus puntos de venta o una empresa de telecomunicaciones puede conocer mejor por qué zonas de una ciudad se desplazan sus clientes -con el gran valor que esto tiene para responsables turísticos, comerciales, etc.

Así, el Big Data puede ser entendido como una evolución del Business Intelligence -herramientas que extraen contenidos inteligentes de una inmensa cantidad de datos que se cruzan para poder realizar predicciones sobre el comportamiento del mercado- o como una herramienta disruptiva (clave en toda evolución y en la innovación).

Quienes lo ven como disrupción lo hacen porque lo importante no es solo la cantidad de datos que se manejan sino la procedencia y fiabilidad de los mismos. Son datos que no están estructurados y que pueden tener su origen en empresas, redes sociales, blogs, etc. Y es por ello que hay una gran cantidad de empresas que aún están en la fase inicial de los Big Data: solo recopilan la información sin saber muy bien qué hacer con ella.

Como parte de esta evolución a la hora de entender los Big Data surge la denominación «Data Lake». Una analogía de un gran lago en el que habitan diferentes tipos de datos, también los desestructurados. Es decir, en vez de filtrar la información, clasificarla y guardarla, todo se deja como en el original para tener una versión más completa de lo que sucede alrededor de la empresa.

¿Por qué no discriminar y ordenar los datos? Es sencillo: si no se desecha ninguno siempre podremos realizar la pregunta que queramos y siempre obtendremos una respuesta sin vacíos en la información. El cambio de paradigma (de Extract, Transform, Load a Extract, Load, Transform) nos permite ir alterando las preguntas que nos realizamos sobre la información sin dejarnos por el camino respuestas. La forma empírica de aplicar la doctrina Einstein: si queremos resultados distintos tenemos que formular preguntas distintas.

Pero esta nueva forma de entender los datos requiere también una nueva forma de entender el almacenamiento de los mismos. En vez de tener todo guardado en archivadores o silos de información se tiene todo unido en un gran «lago». Esto, sin duda, requiere de más espacio. ¿Puede una empresa permitirse esta infraestructura? Si utiliza servidores básicos sí. Porque entonces los bots de gama alta quedan reservados a los datos transaccionales, a los vitales.

En un momento en el que los Big Data aún están creciendo -y en el Estado no tienen una fuerte presencia- estas herramientas de Business Intelligence se muestran fundamentales para el desarrollo y consolidación empresarial puesto que la desventaja competitiva de no tenerlos se antoja definitiva.