viernes, enero 30, 2015

Tras dos décadas de liderazgo del Data Warehouse en España: ¿Se encuentra en peligro por el efecto Houdini de Hadoop?

Tras dos décadas de liderazgo del Data Warehouse en España: ¿Se encuentra en peligro por el efecto Houdini de Hadoop?


En varias ocasiones me habéis preguntado sobre el futuro del Data Warehouse, preocupados por su posible evolución e incluso preguntando por su desaparición. Conviene recordar que la aparición del DW obedece a unas necesidades de negocio y, en especial, a unas necesidades técnicas que limitaban dar oportuna respuesta a las necesidades del negocio.
Para aquellos ajenos a estas artes o con poca experiencia en modelización de DW es razonable tener estas preocupaciones, sobre todo al escuchar esas “verdades a medias” de algunos fabricantes de productos BI (normalmente más departamentales, no plataformas) que presumen de no necesitar modelos de DW en sus presentaciones de herramienta. Aunque en dichas presentaciones siempre aparecen con datos perfectamente limpios ordenados y clasificados e incluso, como vi ayer en un evento, que presumían de no tener un DW pues leían de una base analítica (a saber que saco de datos tenían, pero algo tenían).

Algunas de las necesidades técnicas que comentábamos requieren, entre otras, integrar decenas de sistemas transaccionales, homogenizar conceptos, reorganizarlos, recodificarlos, etc…, algo que “al vuelo” y sin procesos serios de limpieza y transformación no es posible conseguir.
Otras presumen de generar modelos automáticos por arte de magia y desde hace unos años las preocupaciones vienen por la aparición del todo poderoso Hadoop y el BIG DATA, que debe ser como el “coco” que toda la vida nos han hablado de él, pero que nadie lo ha visto y pocos saben realmente que es. Sobre BIG DATA básicamente nos hablan con pasión de las tres “V” del Big Data y pocos encuentran la 4 “V”, el valor para el negocio… bueno ese será otro tema. 

Efectivamente tenemos un bombardeo continuo sobre los miles de millones de datos que se generan cada día, sobre el gran valor de dichos datos, sobre el potencial que esconden y sobre la imposibilidad técnica para procesarlos bajo los estándares o infraestructuras tradicionales. Asociado a este término, como si de un matrimonio se tratase, nos encontramos con nuestro salvador, Hadoop.
Hadoop, según nos cuentan, es como el gran Houdini. Hadoop es casi mágico pues permite disponer de todo lo que queramos. En un “saco” ponemos todo, dando igual cómo, y por arte de magia permite consultarlo. Bueno, pues no es exactamente así. Del mismo modo que Houdini no se llamaba así, era Erik Weisz, en Hadoop tampoco existe la magia. Se requiere mucho conocimiento de su ecosistema y muchos procesos para tratar los ficheros en su ingesta o en su procesamiento una vez dentro del HDFS.

Dotar a Hadoop de este tipo de capacidades no es real y encierra en sí mismo trampas que pueden llevar a tomar decisiones erróneas o meternos en la creación de nuevos escenarios informacionales que no cumplan con nuestras expectativas, básicamente por que parten de dichas creencias erróneas.
Sin entrar en mucho detalle hadoop es simplemente un Sistema de Ficheros Distribuidos (HDFS), alrededor del cual tenemos una batería de productos o herramientas que conforman un complejo ecosistema. Hadoop cumple su cometido y al no ser un sistema de gestión de base de datos no realiza algunos de los controles a las cuales estamos acostumbrados, como: la indexación, los insert de un registro, el borrado de un registro, etc… Aunque dentro de Ecosistema de Hadoop podremos encontrar diversas herramientas que nos permitirán hacer muchas cosas similares a lo que hacemos en las RDBMS, como el acceder a diversos ficheros como si de una tabla de base de datos se tratara a través de sentencias SQL más o menos estándares.

Desde mi punto de vista, lo mejor de Hadoop es la capacidad de almacenar cualquier tipo de dato (estructurado, semiestructurado o no estructurado), la capacidad en su “ingestación” y gracias al ecosistema que lo rodea, la capacidad de convertir, tratar o manipular esos datos en bruto hasta tenerlo en el formato o formatos deseados. La capacidad de disponer de los datos en un formato determinado pudiendo combinarlos rápida y eficazmente es digno de mención. Dando la sensación de que ya estaban preparados, cuando habitualmente solamente tenemos almacenado en un MetaStore la consulta deseada, la capacidad de los nodos del cluster de hadoop hacen el resto.
¿Todo esto implica o puede hacer desaparecer al Data Warehouse actual?

Aunque técnicamente hoy en día es posible poner un Data Warehouse dentro de Hadoop, lo veo poco probable e incluso poco lógico, aunque ya comentaremos este tema en otra ocasión. Personalmente creo que, por el momento, la existencia de Hadoop abre nuevas oportunidades al DW. Hoy por hoy es más lógico verlo como un elemento complementario al DW o como una nueva y valiosa fuente de información para enriquecer y flexibilizar los sistemas de BI.

Debemos aprovechar las bondades de cada uno, en Hadoop podemos procesar datos y estructuras que hasta hace poco eran impensables (logs, sensores, etc…), podemos hacer cálculos y manipulaciones de cientos de millones de registros en unos tiempos reducidos y podemos preparar información o datos para infinidad de necesidades, tanto de BI, como de Data Mining, etc...
Son tecnologías diferentes en sus objetivos que pueden ser complementarias y que lógicamente tienen capacidades y posibilidades que cruzan las barreras de ambos mundos. Por el momento no considero que el DW se encuentre en peligro. Del mismo modo que nadie se plantea mover los sistemas transaccionales a un Hadoop o del mismo modo que nadie se planteó usar el DW como el nuevo y limpio almacenamiento del día a día desmontando los sistemas transaccionales.

Espero y deseo que el BIG DATA y el Business Intelligence, junto con sus respectivos pilares el Hadoop y el DW, irán de la mano en la próxima década, aprovechando y compartiendo lo mejor de cada uno. Potenciados notablemente por nuevas funcionalidades de las herramientas, hasta ahora exclusivas de BI, que serán únicas y capaces de trabajar de forma trasparente sobre ambos entornos. Solamente debemos mirar como fabricantes como SAS, Tableau y otros muchos empiezan a sacar conectores o métodos para conectar con Hadoop a través de HIVE, Pig u otros productos del ecosistema.
Salu2,
Chema Arce (@ichemaarce)

No hay comentarios:

Seguidores