Apache Spark: las ventajas de usar al nuevo ‘rey’ de Big Data

El mundo de Big Data evoluciona rápido. Siempre aparecen nuevas tecnologías que prometen gestionar y analizar grandes volúmenes de datos de una forma más rápida, más escalable y con unos coste de implementación y mantenimiento más baratos. Lo cierto es que de todas esas novedades, Apache Spark, la plataforma de computación distribuida de código abierto, es la más reseñable porque aporta valor añadido con respecto a sus predecesores.

Existen muchas características que hacen de Spark una plataforma especial, pero podríamos englobarlas en cinco aspectos importantes: es una plataforma de código abierto con una comunidad muy activa; es una herramienta rápida; unificada; dispone de una consola interactiva cómoda para los desarrolladores; y también tiene una API para trabajar con los grandes datos.

1. Una plataforma de código abierto con una comunidad activa

Una de las propiedades más interesantes de una solución de código abierto es la actividad de su comunidad. Es la comunidad de desarrolladores la que mejora las características de la plataforma, y ayuda al resto de programadores a implementar soluciones o resolver problemas.

La de Apache Spark es una comunidad cada vez más activa: en septiembre de 2013 había más de 113.000 líneas de código; un año después, se superaban las 296.000; y este septiembre de 2015, el volumen de líneas de código ya marca un récord: 620.300.

Además, la comunidad no deja de crecer en el número de programadores desde junio de 2012. En esa fecha, se dieron de alta cuatro contribuyentes nuevos. En junio de 2015, tres años después, ese número fue de 128. En el último mes del que se tienen datos, julio de 2015, se sumaron al proyecto 137.

2. Una plataforma rápida

Una de las primeras circunstancias que sorprenden de Spark es que, para ser una plataforma de código abierto, su velocidad es enorme, muy por encima de algunas soluciones propietario. ¿Por qué es tan rápida? Apache Spark permite a los programadores realizar operaciones sobre un gran volumen de datos en clústeres de forma rápida y con tolerancia a fallos. Cuando tenemos que manejar algoritmos, trabajar en memoria y no en disco mejora el rendimiento.

Así, en materia de aprendizaje automático (machine learning), Spark ofrece unos tiempos de cálculo en memoria mucho más rápidos que cualquier otra plataforma. El almacenamiento de los datos en la memoria caché hace que la iteración de los algoritmos de machine learning con los datos sea más eficiente. Las transformaciones que se van produciendo de esos datos también se almacenan en memoria, sin tener que acceder dentro del disco.

En su página web hay una prueba de competencia que muestra el rendimiento de Spark con respecto a MapReduce: de 10 a 100 veces más rápida.

En ese procesamiento de datos en memoria, el equipo de desarrolladores dispone de la flexibilidad suficiente para escoger qué datos quedan en memoria y cuáles pueden volcarse al disco duro porque no son necesarios en ese momento. Eso libera mucho el procesamiento, aumentando su eficacia.

3. Una plataforma unificada para gestionar datos

Es una de las características más reconocibles de Apache Spark. Es una plataforma de plataformas. Un ‘todo en uno’ que agiliza mucho el funcionamiento y el mantenimiento de sus soluciones. Combina:

– Spark SQL: permite la consulta de datos estructurados utilizando lenguaje SQL o una API, que se puede usar con Java, Scala, Python o R.

– Spark Streaming: mientras MapReduce solo procesa datos en lotes, Spark tiene la posibilidad de gestionar grandes datos en tiempo real. Esto facilita que los datos se analicen según van entrando, sin tiempo de latencia y a través de un proceso de gestión en continuo movimiento.

– MLlib (Machine Learning): esta herramienta contiene algoritmos que dotan a Apache Spark de muchas utilidades, como la regresión logística y máquinas de vectores de soporte (SVM); modelos de árbol de regresión bayesiana; técnicas de mínimos cuadrados; modelos de mezclas gausianas; análisis de conglomerados de K medias; asignación latente de Dirichlet (LDA); descomposición en valores singulares (SVD); análisis de componentes principales (ACP); regresión lineal; regresión isotónica…

– GraphX: es un framework de procesamiento gráfico. Proporciona una API para la elaboración de grafos con los datos. Primero fue un proyecto separado de AMPLab y Databricks de la Universidad de Berkeley, como Spark, pero posteriormente se unió a la Fundación de Software Apache.

4. Consola interactiva

Una de las ventajas de trabajar con Spark son las consolas interactivas que tiene para dos de los lenguajes con los que se puede programar, Scala (que se ejecuta en una máquina virtual Java- JVM) y Python. Estas consolas permiten analizar los datos de forma interactiva, con la conexión a los clústeres.

Por poner un ejemplo, los desarrolladores en Python pueden y suelen utilizar IPython para ejecutar la API de Spark en Python (PySpark). IPython es un sistema para crear documentos ejecutables. Con IPython se puede integrar texto con formato (mediante el lenguaje de marcado Markdown), código ejecutable en Python, fórmulas matemáticas con LaTeX y gráficos y visualizaciones con la librería en Python matplotlib.

5. Una gran API para trabajar con los datos

Apache Spark tiene APIs nativas para los lenguajes de programación Scala, Python y Java. Este conjunto de APIs facilita a los programadores el desarrollo de aplicaciones en estas sintaxis, que se puedan ejecutar en la plataforma de código abierto. Las APIs posibilitan interactuar con los datos de:

– El Sistema de Archivos de Hadoop (HDFS).

– La base de datos NoSQL de código abierto HBase.

– La base de datos NoSQL de código abierto Apache Cassandra.

Las APIs sirven para realizar dos tipos de operaciones sobre los datos:

– Transformar un grupo de datos.

– Aplicar operaciones sobre los datos para obtener un resultado.

Síguenos en @BBVAAPIMarket

También podría interesarte

Qué es una API, tipos de APIs y cómo funcionan

Una API es el mecanismo más útil para conectar dos softwares entre sí para el intercambio de mensajes o datos en formato estándar como XML o JSON. Así es como se convierte en un instrumento para buscar ingresos, abrirse al talento, innovar y automatizar procesos.

APIs , Banking as a service , Desarrollo de negocio , Transformación Digital / 18 diciembre 2023
Qué es y para qué sirve la automatización de procesos empresariales

Las APIs pueden ser un gran apoyo a la hora de automatizar procesos empresariales Las empresas, a menudo con foco en las PYMES, dedican demasiadas horas-persona a procesos empresariales que consumen un tiempo precioso, incurriendo con ello en errores que una máquina jamás tendría. ¿Cómo puede la automatización de procesos empresariales (BPA) ayudar a estas […]

APIs , Banking as a service , Transformación Digital / 07 septiembre 2023
Gestión de procesos administrativos y cómo automatizarlos con las APIs

Las APIs tienen un enorme potencial a la hora de automatizar procesos administrativos y simplificar las gestiones internas. Automatizar procesos administrativos es más fácil a medida que las APIs evolucionan y permiten más y más integración tanto a nivel interno (API privada) como externo (pública). ¿Qué puede hacer una API por la gestión interna? ¿Es […]

APIs , Banking as a service , Desarrollo de negocio , Ecosistema digital , Transformación Digital / 14 febrero 2023

Denominación	Titular	Duración	Finalidad
gobp.lang	BBVA	1 mes	Preferencia de idioma
aceptarCookies	BBVA	1 año	Configuración Cookies aceptadas
_abck	BBVA	1 año	Ayuda a protegerse contra los ataques de sitios web maliciosos
bm_sz	BBVA	4 horas	Ayuda a protegerse contra los ataques de sitios web maliciosos
ADRUM_BTs	Salesforce Marketing Cloud	Sesión	Requerido para la supervisión del servicio, inherente al SFMC
ADRUM_BT1	Salesforce Marketing Cloud	Sesión	Requerido para la supervisión del servicio, inherente al SFMC
ADRUM_BTa	Salesforce Marketing Cloud	Sesión	Requerido para la supervisión del servicio, inherente al SFMC
ADRUM_BT	Salesforce Marketing Cloud	Sesión	Requerido para la supervisión del servicio, inherente al SFMC
xt_0d95e	Salesforce Marketing Cloud	Sesión	Recordar las preferencias del usuario (si las hay)
__s9744cdb192d044faa1bf201d29fafd1e	Salesforce Marketing Cloud	Sesión	Recordar las preferencias del usuario (si las hay)
wpml_browser_redirect_test	WPML	Sesión	Traducción de textos del portal
wp-wpml_current_language	WPML	24 horas	Traducción de textos del portal

Denominación	Titular	Duración	Finalidad
AMCV_***	Adobe Analytics	Sesión	ID de visitante único que se usan en las soluciones de Marketing Cloud
AMCVS_***	Adobe Analytics	2 años	ID de visitante único que se usan en las soluciones de Marketing Cloud
demdex (safari)	Adobe Analytics	180 días	Crear y almacenar identificadores únicos y persistentes
sessionID	Adobe Analytics	Sesión	Cookie interna de Launch usada para identificar al usuario
gpv_URL	Adobe Analytics	Sesión	plugin Adobe Analytics: getPreviousValue Capturar el valor de una determinada variable en la siguiente vista de página, en este caso la prop1
gpv_level1	Adobe Analytics	Sesión	Cookie utilizada para almacenar el levl1 del DataLayer de la página anterior.
gpv_pageIntent	Adobe Analytics	Sesión	Cookie utilizada para almacenar el pageIntent de la página anterior.
gpv_pageName	Adobe Analytics	Sesión	Cookie utilizada para almacenar el pagename de la página anterior.
aocs	Adobe Analytics	Sesión	Cookie que almacena los primeros valores recogidos al inicio de un proceso.
TTC	Adobe Analytics	Sesión	Cookie usada para almacenar el tiempo transcurrido entre el evento App Page Visit y App Completed.
TTCL	Adobe Analytics	Sesión	Cookie usada para almacenar el tiempo transcurrido entre el evento LogIn y App Completed.
s_cc	Adobe Analytics	Sesión	Determinar si las cookies están activas
s_hc	Adobe Analytics	Sesión	Cookie usada por Adobe con propositos de analítica.
s_ht	Adobe Analytics	Sesión	Cookie usada por Adobe con propositos de analítica.
s_nr	Adobe Analytics	2 años	Determinar el número de visitas de usuario
s_ppv	Adobe Analytics	Persistente	plugin Adobe Analytics: getPercentPageViewed Determinar el procentaje de página que visualiza un usuario
s_sq	Adobe Analytics	Sesión	Funcionalidades ClickMap/ActivityMap
s_tp	Adobe Analytics	Sesión	Cookie usada por Adobe con propositos de analítica.
s_visit	Adobe Analytics	2 años	Cookie usada por Adobe para saber cunado una sesión se ha iniciado.

Denominación	Titular	Duración	Finalidad
OT2	VersaTag	90 días	Cookie de VersaTag usada para almacenar un id de usuario y el numero de visitas del usuario.
u2	VersaTag	90 días	Cookie de VersaTag en la que se almacena el ID del usuario
TargetingInfo 2	MediaMind	1 año	Cookie que sirve para asignar un número unico random que genera MediaMind.

Denominación	Titular	Duración	Finalidad
mbox	Adobe Target	9 días	Cookie usada por Adobe Target para hacer test de personalizacion de experencia del usuario.

Apache Spark: las ventajas de usar al nuevo ‘rey’ de Big Data

También podría interesarte

Qué es una API, tipos de APIs y cómo funcionan

Qué es y para qué sirve la automatización de procesos empresariales

Gestión de procesos administrativos y cómo automatizarlos con las APIs