Principales tecnologías Big Data: Hadoop

No Comments

En anteriores entradas introdujimos las aplicaciones del Big Data en diferentes ámbitos. Como se mencionó en aquellas ocasiones, aunque en rigor el término Big Data se refiere al tamaño de un determinado conjunto de bases de datos, en la práctica este nombre es utilizado para referirse tanto a bases de datos como a herramientas de análisis y hasta metodologías.

Hoy en día no es posible pensar en procesamiento de grandes bases de datos sin considerar Hadoop, la referencia para el tratamiento distribuido de los datos que sirve como motor para gran parte de las aplicaciones basadas en Big Data.

Hadoop logo.svg

Hadoop es un proyecto Apache que engloba un conjunto de tecnologías software bajo un framework con licencia libre para la gestión de aplicaciones distribuidas. Hadoop engloba diferentes módulos, con diversas capacidades muy interesantes para el manejo de grandes cantidades de datos. En concreto, el sistema de ficheros distribuido HDFS (Hadoop Distributed File System) junto con el sistema MapReduce para procesamiento paralelo proporcionan un entorno perfecto para su tratamiento distribuido. 

Además, otros proyectos bajo el abanico de Apache han potenciado sinergias con Hadoop, conformando un abanico de herramientas muy útiles en los entornos Big Data. Algunos de los ejemplos más importantes son:

  • ZooKeeper: Servidor para la coordinación de aplicaciones distribuidas.
  • Pig y Hive: Proporcionan capas de abstracción de nivel superior para datos y consultas.
  • Mahout: Librería de aprendizaje automático para el descubrimiento de información en los datos.

Con estas herramientas, algunas de las compañías más representativas del mundo de Internet y de la informática en general han conseguido posicionarse por encima de su competencia. Estos son algunos ejemplos:

  • Adobe: Hadoop y HBase en diferentes areas de negocio. Uso de MapReduce. 
  • Yahoo: Más de 40000 ordenadores con Hadoop. Clusters de hasta 4500 nodos.
  • LinkedIn: Hadoop + Pig + Hive. Implementan además Kafka, su propia cola de mensajes distribuida.

Suscríbete a nuestra newsletter