Dark Data

Los datos oscuros son un “nuevo viejo” conocido de los analistas y estadistas desde hace años. Se trata de todos los datos y metadatos que no están siendo capturados, estructurados y analizados, y que forman un constante derroche de información potencialmente muy valiosa que los negocios están dejando escapar. Aprovechar el Dark Data es complicado.
2 min lectura
Dark Data
Dark Data

BBVA API Market

Los datos oscuros son un “nuevo viejo” conocido de los analistas y estadistas desde hace años. Se trata de todos los datos y metadatos que no están siendo capturados, estructurados y analizados, y que forman un constante derroche de información potencialmente muy valiosa que los negocios están dejando escapar. Aprovechar el Dark Data es complicado.

Pasar a aprovechar el Dark Data es complicado. El primer paso es identificar qué datos tiene un negocio almacenado y no están siendo analizados, el segundo es intentar proyectar las posibilidades de los mismos antes de adentrarse en una labor de desarrollo para extraerlos.

Desarrollar utilidades propias que se adapten exactamente a lo que necesitamos puede ser una labor excesivamente intensiva, sobre todo si no somos capaces de ver cuál es el valor final que vamos a poder conseguir, bien sea en rédito monetario inmediato o en valor añadido para otras partes del negocio. Por suerte hay múltiples herramientas y APIs con las que trabajar y sumergirse en esta turba de datos.

IBM OpenWhisk

Un claro ejemplo de Dark Data es el contenido de los vídeos que muchas plataformas alojan. Normalmente el análisis se centra en los metadatos que rodean el vídeo como el título, fecha, duración o etiquetas generadas o aplicadas por humanos.

Con OpenWhisk puedes analizar el contenido dentro de cada escena de los vídeos. Lo hace extrayendo planos individuales y, en paralelo, identifica qué ocurre en cada uno de ellos: quién aparece, qué textos hay, qué se representa, qué objetos se pueden ver, etc.

Es lo que IBM denomina Dark Vision. Una vez que se obtienen los datos relativos a cada escena del vídeo el nivel de mejoras y posibilidades aumenta exponencialmente.

DeepDive de Stanford

Académicos de la universidad californiana de Stanford crearon DeepDive, otro sistema para extraer datos de forma estructurada. La principal ventaja de DeepDive es que crea tablas SQL con los datos extraídos de documentos. La plataforma ha sido utilizada para categorizar corpus de datos totalmente desorganizados por varias universidades y grupos de investigadores, con resultados sorprendentes.

Representa un salto cualitativo con respecto a otras plataformas y software basado en la identificación manual inicial de los datos. DeepDive automatiza gran parte del proceso con el aprendizaje automático (“machine learning”). Permite al grupo encargado del análisis definir los objetivos a conseguir en vez de programar tareas concretas y específicas. Una vez claros estos objetivos, el sistema comenzará el análisis y le extracción.

Los desarrolladores de DeepDive han dejado lugar para las inexactitudes y comprender datos ambiguos: Por ejemplo, que comprenda que dos términos son el mismo a pesar de que uno contenga errores ortográficos.

Contexto

Los expertos en Dark Data hablan de que el primer paso es la “restauración del contexto”. Iniciar el análisis de cada pieza emulando la situación previa a su almacenamiento. Estas técnicas pueden servir para mejorar en gran medida el éxito futuro de los análisis.

Cada negocio es distinto, y el Dark Data generado por un banco es muy distinto al de un bufete de abogados o a los que tienen una red social o un comercio electrónico. Conseguir “iluminar” los datos oscuros tiene muchos retos a nivel técnico, y las soluciones pueden pasar de aplicar una mejor metodología al desarrollo existente hasta contratar a un equipo disciplinar concreto si se prevé que el valor escondido es ingente.

En realidad, lo mejor es que los datos permanezcan siempre estructurados desde su captura y evitar que se conviertan en Dark Data por negligencia técnica. Si los recursos técnicos acompañan, ningún dato debería darse por perdido una vez almacenado.

¿Te interesan las APIs financieras? Descubre todas las que te ofrece BBVA

También podría interesarte