Big Data. Muy bien, pero… ¿Cómo de «Big»?

3 Comments

En el principio había ficheros. A partir de ellos se crearon las bases de datos con modelo relacional, cuando parecía que todos los problemas residían en la estructura lógica, la versatilidad, y sobre todo la ausencia de redundancia. En aquellos tiempos la memoria era cara. Hoy en día, éste es el más barato de lo recursos.

El panorama ha cambiado bastante desde la llegada de Internet. Las organizaciones, antes acostumbradas a almacenar y analizar sus datos internos, tienen que considerar ahora también lo que viene de fuera, y esto plantea diferentes problemas: estructura de los datos, integración, variabilidad, análisis… y también tamaño. Los modelos clásicos de almacenamiento y procesamiento de la información se han quedado sencillamente obsoletos en un lapso relativamente corto de tiempo para un gran número de aplicaciones. Aquí es donde entra en juego el Big Data.

Los tamaños que se manejan

En primer lugar, hay que aclarar que aquí utilizaré el petabyte como unidad de información. Me encanta este video para entender de lo que estamos hablando:

Dentro del mundo científico ya se han confrontado con éxito este tipo de problemas. El proyecto Genoma Humano supuso es quizá el primer gran exponente de recopilación de un elevado volumen de datos de difícil análisis. Como consecuencia de su finalización, miles de organizaciones en todo el mundo han generado a su vez grandes bases de datos derivadas de diferentes estudios, y su número crece año tras año.

En el Gran Colisionador de Hadrones (LHC) que el CERN tiene cerca de Ginebra se estima que lleguen a generarse 37 terabytes de información diaria. Sólo los experimentos relacionados con la búsqueda del bosón de Higgs han generado más de 200 petabytes hasta la fecha. Para hacernos una idea de la magnitud de esta cifra, utilicemos la unidad Netflix: la web de streaming utiliza 1 petabyte para el almacenamiento de sus videos. Por lo tanto, podríamos decir que este experimento tiene una magnitud de 200 «Netflix». Aun utilizando los supercomputadores más potentes, esta información tardará años en ser analizada.

El registro de datos meteorológicos es otro ejemplo de alto nivel de almacenamiento con gran necesidad de análisis. Así, el German Climate Computing Centre (DKRZ) tiene una capacidad de almacenamiento de 60 petabytes.

En el mundo de Internet se manejan cantidades de información en el mismo orden de magnitud (si bien el procesamiento no suele ser tan exhaustivo). Así, el Internet Archive contiene aproximadamente 10 petabytes de datos de tipo cultural. Un servicio de videojuegos online como Steam distribuye más de 30 petabytes de contenido digital mensualmente. La palma, no puede ser de otra manera, se la lleva Google, que procesa cerca de 24 petabytes de información diaria. Otros ejemplos de aplicaciones de Internet de uso intenso de datos son:

Facebook: 100 petabytes de fotos y videos

Youtube: 76 petabytes nuevos almacenados por año

Hotmail (DEP): 100 petabytes

Megaupload (DEP??): 25 petabytes

Dropbox: 40 petabytes

Amazon S3: Las estimaciones llegan casi al exabyte (para esto no tengo video).

Lo mejor de todo esto es que si sigue la tendencia de crecimiento actual estas cifras se parecerán pequeñas en los próximos años. Con los datos en la mano, ¿está tu organización preparada para el Big Data?

Suscríbete a nuestra newsletter

3 Comments
  1. Pingback: Big Data, un "must" para el éxito en ECommerce

  2. Pingback: Big Data: necesidades y aplicaciones - BrainSINS

    • Luis Martin
    • 05/12/2012
    Responder

    Después de ver lo que algunos son capaces de hacer cuando diseñan un modelo entidad-relación, me dan ganas de que desaparezcan y olvidarlo todo para siempre…

    Lo cierto es que se echa de menos SQL. Estas soluciones han crecido rápidamente fruto de la necesidad, pero aún queda mucho por desarrollar. Me gusta HIVE como concepto, aunque no sé si es por nostalgia. A ver hasta dónde llegamos.

    • Carlos
    • 05/12/2012
    Responder

    Actualmente soluciones como Hadoop, HFS y MapReduce están permitiendo manejar esa cantidad de datos. Es una evolución hacia la simplicidad y me parece una gran idea evolucionar en ese sentido. Las bases de datos relacionales siguen teniendo su espacio pero lo cierto es que creo que es cuestión de tiempo que se encuentren soluciones con mismas funcionalidades (seguridad, rapidez, transacciones) en entornos de este otro tipo.

 

Deja tu comentario