Data Scientist, el ‘unicornio’ de los datos: ¿qué es, qué hace y cómo cambiará el mundo?

El Científico de Datos debe tener conocimientos en ciencia aplicada, con una larga experiencia en su industria y con formación en materia científica.

11 Mar. 2015

Data Scientist, el ‘unicornio’ de los datos: ¿qué es, qué hace y cómo cambiará el mundo?

 

“La persona que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico”. Así definió la profesión de Data Scientist Josh Wills, Director de Data Science de Cloudera en una conferencia en 2012, titulada ‘La vida de un Científico de Datos’. En un mundo donde la especialización es un valor indispensable, este perfil profesional se ha convertido en una especie de Miguel Ángel del siglo XXI aplicado a los datos.

Grandes empresas como Google, IBM, Facebook, HP, Oracle, Amazon o LinkedIn se mueven día a día en el mundo de los Big Data para obtener ventajas competitivas. La clave de todo ese proceso es la Ciencia de Datos: la mejora de algoritmos que permitan ahorrar costes, perfeccionar sistemas de recomendación o búsqueda, modernizar los procesos industriales, controlar los niveles de riesgo… Y cómo no, transformar el modelo de negocio de cualquier compañía.  

El Científico de Datos debe tener conocimientos en ciencia aplicada, con una larga experiencia en su industria y con formación en materia científica (aprendizaje supervisado, no supervisado…). Esto le permite llegar a soluciones creativas y con criterio. “El Data Scientist va mucho más allá del Power Point al que estamos acostumbrados en el mundo de la innovación: su responsabilidad empieza diseñando un prototipo con las tecnologías que mejor se adapten al problema en cuestión (Hadoop, MongoDB, Spark, Python, R) y acaba en la supervisión de su puesta en marcha en producción”, afirma Sergio Álvarez Teleña, Responsable de Global Strategies & Data Science en BBVA, Global Markets.

Para José Antonio Guerrero, Científico de Datos del Hospital Universitario Virgen del Rocío, en Sevilla, y una de las referencias del sector a nivel mundial, este perfil profesional necesita “contar con experiencia en una o más áreas sectoriales para relacionarse con los gestores de las empresas, plantear hipótesis, ayudar a interpretar resultados y poner en práctica el análisis de la información”.

Mercados y sectores que reclaman Científicos de Datos

Debido a esta mezcla de experiencia y conocimientos tan especial, encontrar profesionales que respondan a los desafíos del mercado es complicado. Tanto es así, que el sector se refiere a ellos como ‘unicornios’. Sin embargo, la demanda de información y formación profesional en este campo no deja de aumentar. Una simple búsqueda en Indeed, la plataforma de ofertas de empleo, muestra cómo el interés por esta disciplina ha progresado mucho desde 2011.

 

 

Lo cierto es que el sector de los Big Data crece por encima de un 50% anual. En 2011 lo hizo un 59% y en 2012, un 58%. Las previsiones son que el sector alcance los 38.000 millones de dólares en ventas en 2015, los 45.000 millones en 2016 y rompa todos los registros al situarse en los 50.000 millones en 2017.

EEUU, Reino Unido e Israel, los tres puntos más calientes en innovación internacional, son y serán los países que apuesten con más fuerza por estos perfiles y financien equipos y proyectos de este tipo. En España es más difícil, exceptuando aquellas empresas que se dedican a dar estos servicios. “El miedo a lo desconocido y la comodidad son dos de las principales causas por las que este país no evoluciona al ritmo de otras economías desarrolladas, pero todo llegará – aquí lo que sobra es talento”, afirma Álvarez.

En Estados Unidos, por poner un ejemplo, los sectores que utilizan la Ciencia de Datos son la analítica, el desarrollo de software, la consultoría, la energía, los servicios financieros, la educación y la investigación, la publicidad y los medios, las infraestructuras o el reclutamiento de nuevo talento. Aquí tienes un gráfico con el reparto porcentual de la demanda en esta disciplina al otro lado del Atlántico.

 

Pese a esa demanda, hay escasez de titulaciones educativas. “Las mejores alternativas son comenzar con una formación base, como Estadística o Ingeniería Informática y complementarla con estudios de postgrado para obtener un espectro de habilidades más amplio”, asegura Guerrero. Para Álvarez, “el mejor sitio del mundo para aprender todo esto es el UK PhD Centre for Financial Computing & Analytics, un centro muy elitista en términos de talento al que sólo se accede por beca del gobierno británico”.

Las herramientas de trabajo del Científico de Datos

La mejor virtud de un profesional que quiera dedicarse a la Ciencia de Datos es su creatividad y capacidad para alcanzar soluciones óptimas a los problemas. Desarrollar librerías y herramientas que acaben en mejoras de negocio. Y para ello es indispensable dominar distintos lenguajes de programación. R, C++, Python, Matlab, Pascal… “Mi primera opción suele ser R, dispone de un enorme conjunto de paquetes generales y especializados que cubren la mayor parte de las necesidades para el análisis de información”, dice Guerrero.

El lenguaje C++ suele utilizarse para mitigar las deficiencias de R, una gestión eficaz de los objetos en memoria o de la velocidad en las operaciones tipo bucle. En el caso de desarrollo para proyectos de deep learning, los desarrolladores en Python pueden encontrar un campo profesional muy interesante. Además, existen otras opciones como Pascal, una solución rápida para estructuras de datos complejas.

¿Y esto para qué sirve? Casos de éxito

El entorno de los Big Data y la Ciencia de Datos se ha convertido en un círculo cerrado, en el que se evitan filtraciones que den ventajas a los competidores. En muchas ocasiones, las empresas alcanzan soluciones exitosas que no publicitan por miedo a ser imitados. Empresas como Google, Microsoft, Facebook , Twitter o entidades financieras de medio planeta invierten miles de millones para liderar sus respectivos mercados.

Hoy en día, más de la mitad de las operaciones en bolsa se ejecutan a partir de algoritmos que no necesitan de la intervención de una persona. “Comencé dentro de un departamento de renta variable en Europa y ahora mismo tengo un equipo de Data Scientists con el que controlamos todo la innovación del trading y el comercio electrónico a nivel global para todos los activos del BBVA”, afirma Álvarez. “Muchos describen esta apuesta por la innovación como un notable éxito en gestión del cambio. De hecho, mi unidad ha sido la única iniciativa presentada por Global Markets a unos premios internos de excelencia. Mi objetivo ahora es difundir el conocimiento de Data Science en otras áreas para que entre todos podamos exprimir al máximo esta nueva disciplina”, asegura.

Redes sociales como Facebook analizan la interacción de los usuarios dentro de su plataforma para determinar la imagen de marca o producto de las empresas. Ese análisis es vital para el modelo de negocio de muchas compañías, por lo que su explotación con fines comerciales es una fuente de financiación enorme.

Microsoft, por ejemplo, utilizó la Ciencia de Datos para mejorar Kinect, el sistema que permite jugar a los videojuegos con el cuerpo. La compañía de Redmond recurrió a la comunidad científica para mejorar su sistema de reconocimiento de gestos corporales. El español Alfonso Nieto Castañón, que en la actualidad trabaja en la Universidad de Boston, ganó en dos ocasiones el reto lanzado por la empresa americana. En esa línea, los Data Scientists han desarrollado aplicaciones de reconocimiento del lenguaje de signos o la realización de ejercicios de rehabilitación en el campo de la medicina.

Hacia dónde van los Big Data

El futuro de la Ciencia de Datos se debate en lo que podríamos llamar la Trinidad de los Big Data: volumen, diferenciación y velocidad. Hasta hace muy poco, cualquier solución en el análisis de los datos tenía como una de sus prioridades la gestión de un gran volumen de datos. En la actualidad, ofrecen muchos más problemas la heterogeneidad de esos datos (texto, imagen, vídeo, conversaciones en foros, redes sociales y aplicaciones móviles…) y la velocidad con la que esos datos se generan.

Por tanto, “debemos estar preparados para trabajar con bases de datos noSQL (not only SQL) y almacenamientos distribuidos”, afirma Guerrero. Además, las empresas cada vez más reclaman soluciones en tiempo real. “Hoy se están desarrollando técnicas denominadas online incremental learning para resolver este tipo de situaciones en mercados como la publicidad online, el trading automático o la detección de intrusiones en redes en materia de seguridad”, dice este profesional.

Otros de los avances en los últimos años es el aumento de las soluciones paralelizables. Las empresas apuestan cada vez más por OpenMP para optimizar los procesadores multihilo; Hadoop y MapReduce para los clústeres multinodo; y, de una forma más reciente, la irrupción de Spark, que permite “una gestión de los datos en memoria cien veces más rápida que Hadoop para la computación de algoritmos”, asegura Guerrero.

El futuro profesional es de los Científicos de Datos y las empresas que no se suban a la gran ola de los Big Data perderán la gran batalla del conocimiento.

BBVA - Síguenos en @BBVAAPIMarket