Apache

El sistema Apache Hadoop

El sistema Apache Hadoop es el software (open source) más comúnmente asociado con Big Data. Funciona como un marco que permite el procesamiento de grandes volúmenes de datos a través de grupos de ordenadores usando modelos de programación sencillos.

BBVAOpen4U
|
04 Dic. 2017

El sistema Apache Hadoop está diseñado para tratar desde servidores individuales a cientos de ordenadores, cada uno ofreciendo computación local y almacenamiento. Este sistema se basa en Java y permite fragmentar tareas de cálculo en diferentes procesos y distribuirlos en los nodos de un grupo interrelacionado de ordenadores, de forma que puedan trabajar en paralelo. De hecho pueden usarse miles de ordenadores, lo cual resulta más rentable porque no se necesita una máquina de última generación, sino varios servidores estándar.

En lugar de depender del hardware para ofrecer alta disponibilidad, Apache Hadoop está diseñado para detectar y gestionar fallos en la capa de aplicación.

Hadoop es un paquete muy amplio de software y por esa razón a veces se le denomina ecosistema Hadoop. Este paquete incluye, junto a los componentes centrales (Core Hadoop), una gran variedad de extensiones (Pig, Chukwa, Oozie o ZooKeeper) que añaden un gran número de funciones adicionales al framework y sirven para la manipulación de grandes volúmenes de grupos de datos.

La base del ecosistema Hadoop es el Core Hadoop. Sin embargo, el proyecto incluye los siguientes módulos:

  • Hadoop Common: las utilidades en común que apoyan a otros módulos de Hadoop.
  • Hadoop Distributed File System (HDFS): un sistema de distribución de archivos que provee alto acceso a datos de aplicación.
  • Hadoop YARN: un marco para agendar trabajo y agrupación de gestión de recursos.
  • Hadoop MapReduce: un sistema basado en YARN para procesamiento en paralelo de grandes volúmenes de datos. 

El módulo básico Hadoop Common, el Hadoop Distributed File System (HDFS) y un motor MapReduce son los componentes de la primera versión. A partir de la versión 2.3 este último fue sustituido por la tecnología de gestión de grupos de ordenadores interconectados YARN, también denominada MapReduce 2.0.

 

Tienes más información sobre este software en su página oficial.

¿Te interesan las APIs financieras? Descubre todas las que te ofrece BBVA

¡Suscríbete!

Recibe nuestro boletín semanal. No te pierdas nuestros trucos, consejos, artículos y los eventos más innovadores.