Big Data, evolución autónoma

El nacimiento de la era 2.0 traía consigo una mayor interconexión entre máquinas, personas y máquinas y personas. Desde cualquier dispositivo se podía entablar -en teoría- una relación hombre-máquina. Domótica, dispositivos móviles, cosas «inteligentes», herramientas para la comunicación mucho más potentes y rápidas que cualquier otra hasta la fecha. En definitiva: muchos más datos saliendo de cualquier objeto con un chip.

Y como la revolución digital no para de crecer el volumen de datos que generamos crece a cada segundo exponencialmente. Datos que se acumulan a la espera de que sean analizados para crear un sorprendentemente exacto modelo de nuestro comportamiento como individuos y como sociedad. En definitiva, el laboratorio perfecto para realizar predicciones y descubrir relaciones causa-efecto que sin esta información seguramente pasaría desapercibida.

Como resultado «colateral» la figura del data scientist ha adquirido un papel trascendental en Silicon Valley. Analistas que sepan qué hacer con semejante madeja de datos y que mediante el uso de programas informáticos y potentes ordenadores sepan traducir todo lo que queremos decir y hacer. Al fin y al cabo, hace falta un factor humano que sepa discernir qué paquetes de datos hay que analizar y qué hay que buscar en ellos. Al menos hasta ahora.

Ingenieros del Instituto Tecnológico de Massachusetts han desarrollado la Data Science Machine (DSM), un software autónomo capaz de encontrar patrones en las relaciones entre todos los datos y realizar predicciones mucho más rápida y fielmente que la mayoría de los humanos.

Con su propia experiencia miembros del Laboratorio de Informática e Inteligencia Artificial del MIT se dieron cuenta que uno de los pasos críticos de la investigación de Big Data es identificar las variables que se van a extraer de la base de datos. El DSM identifica esas variables en el software y se aprovecha de las etiquetas (metadatos) para crear una correlación entre todos los datos diponibles en las bases de datos.

Kalyan Veeramachaneni, investigador del Laboratorio, y Max Kanter, estudiante de master en el mismo departamento ponen como ejemplo una base de datos en la que hay una tabla con una lista de productos y su coste y otra con una lista de artículos que han sido adquiridos por los clientes. El DSM es capaz de portar datos de una tabla a otra para calcular el coste total de las compras, el coste medio, el coste máximo, etc. y cuantos más datos haya disponibles en más tablas más relaciones podrá estudiar el software. Si a eso le sumamos los «datos categóricos» (restringidos al uso de determinados valores como nombres de marcas, días de la semana, meses, etc.) se pueden conseguir predicciones sorprendentemente certeras.

Una vez marcadas todas las variables y buscados los datos se pueden realizar predicciones y retratos a medida de lo que quiera el usuario. El DSM ya ha sido puesto a prueba. Sus dos creadores lo inscribieron en diferentes competiciones de análisis de datos y aunque no ganaron en ninguna superaron a más de la mitad de los equipos, sus predicciones casi no distaron de las de los ganadores y, lo más interesante, su tiempo invertido siempre estuvo entre las dos y las doce horas mientras que sus rivales dedicaron entre uno y dos meses.

Sin embargo tanto Veeramachaneni como Kanter subrayan que el DSM en ningún momento está concebido para sustituir a los humanos, sino para ahorrarles un tiempo crítico en los primeros procesos de análisis y dotarles de nuevas herramientas más ágiles y capaces para analizar mejor mayores cantidades de Big Data con menos esfuerzo. Como han reconocido ya son varias las empresas que se han interesado por su tecnología que ya comercializan a través de la empresa FeatureLab.

Publicado por

Gaizka Manero López

Nacido en 1982 en Portugalete, Bizkaia, soy doctor en "Periodismo, Comunicación y Memoria en la era digital" por la Universidad del País Vasco.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *