Tras dos décadas de liderazgo del Data Warehouse en España: ¿Se encuentra en peligro por el efecto Houdini de Hadoop?
En varias ocasiones me habéis preguntado sobre el futuro del Data Warehouse, preocupados por su posible evolución e incluso preguntando por su desaparición. Conviene recordar que la aparición del DW obedece a unas necesidades de negocio y, en especial, a unas necesidades técnicas que limitaban dar oportuna respuesta a las necesidades del negocio.
Algunas de las necesidades
técnicas que comentábamos requieren, entre otras, integrar decenas de sistemas
transaccionales, homogenizar conceptos, reorganizarlos, recodificarlos, etc…, algo
que “al vuelo” y sin procesos serios de limpieza y transformación no es posible
conseguir.
Otras presumen de generar modelos
automáticos por arte de magia y desde hace unos años las preocupaciones vienen
por la aparición del todo poderoso Hadoop y el BIG DATA, que debe ser como el “coco”
que toda la vida nos han hablado de él, pero que nadie lo ha visto y pocos
saben realmente que es. Sobre BIG DATA básicamente nos hablan con pasión de las
tres “V” del Big Data y pocos encuentran la 4 “V”, el valor para el negocio…
bueno ese será otro tema.
Efectivamente tenemos un
bombardeo continuo sobre los miles de millones de datos que se generan cada
día, sobre el gran valor de dichos datos, sobre el potencial que esconden y
sobre la imposibilidad técnica para procesarlos bajo los estándares o
infraestructuras tradicionales. Asociado a este término, como si de un
matrimonio se tratase, nos encontramos con nuestro salvador, Hadoop.
Hadoop, según nos cuentan, es
como el gran Houdini. Hadoop es casi mágico pues permite disponer de todo lo
que queramos. En un “saco” ponemos todo, dando igual cómo, y por arte de magia
permite consultarlo. Bueno, pues no es exactamente así. Del mismo modo que
Houdini no se llamaba así, era Erik Weisz, en Hadoop tampoco existe la magia.
Se requiere mucho conocimiento de su ecosistema y muchos procesos para tratar
los ficheros en su ingesta o en su procesamiento una vez dentro del HDFS.
Dotar a Hadoop de este tipo de
capacidades no es real y encierra en sí mismo trampas que pueden llevar a tomar
decisiones erróneas o meternos en la creación de nuevos escenarios
informacionales que no cumplan con nuestras expectativas, básicamente por que
parten de dichas creencias erróneas.
Sin entrar en mucho detalle
hadoop es simplemente un Sistema de Ficheros Distribuidos (HDFS), alrededor del
cual tenemos una batería de productos o herramientas que conforman un complejo
ecosistema. Hadoop cumple su cometido y al no ser un sistema de gestión de base
de datos no realiza algunos de los controles a las cuales estamos acostumbrados,
como: la indexación, los insert de un registro, el borrado de un registro, etc…
Aunque dentro de Ecosistema de Hadoop podremos encontrar diversas herramientas
que nos permitirán hacer muchas cosas similares a lo que hacemos en las RDBMS,
como el acceder a diversos ficheros como si de una tabla de base de datos se
tratara a través de sentencias SQL más o menos estándares.
Desde mi punto de vista, lo mejor
de Hadoop es la capacidad de almacenar cualquier tipo de dato (estructurado,
semiestructurado o no estructurado), la capacidad en su “ingestación” y gracias
al ecosistema que lo rodea, la capacidad de convertir, tratar o manipular esos
datos en bruto hasta tenerlo en el formato o formatos deseados. La capacidad de
disponer de los datos en un formato determinado pudiendo combinarlos rápida y
eficazmente es digno de mención. Dando la sensación de que ya estaban
preparados, cuando habitualmente solamente tenemos almacenado en un MetaStore
la consulta deseada, la capacidad de los nodos del cluster de hadoop hacen el
resto.
¿Todo esto implica o puede hacer
desaparecer al Data Warehouse actual?Aunque técnicamente hoy en día es posible poner un Data Warehouse dentro de Hadoop, lo veo poco probable e incluso poco lógico, aunque ya comentaremos este tema en otra ocasión. Personalmente creo que, por el momento, la existencia de Hadoop abre nuevas oportunidades al DW. Hoy por hoy es más lógico verlo como un elemento complementario al DW o como una nueva y valiosa fuente de información para enriquecer y flexibilizar los sistemas de BI.
Debemos aprovechar las bondades
de cada uno, en Hadoop podemos procesar datos y estructuras que hasta hace poco
eran impensables (logs, sensores, etc…), podemos hacer cálculos y
manipulaciones de cientos de millones de registros en unos tiempos reducidos y
podemos preparar información o datos para infinidad de necesidades, tanto de
BI, como de Data Mining, etc...
Son tecnologías diferentes en sus
objetivos que pueden ser complementarias y que lógicamente tienen capacidades y
posibilidades que cruzan las barreras de ambos mundos. Por el momento no
considero que el DW se encuentre en peligro. Del mismo modo que nadie se
plantea mover los sistemas transaccionales a un Hadoop o del mismo modo que
nadie se planteó usar el DW como el nuevo y limpio almacenamiento del día a día
desmontando los sistemas transaccionales.
Espero y deseo que el BIG DATA y
el Business Intelligence, junto con sus respectivos pilares el Hadoop y el DW,
irán de la mano en la próxima década, aprovechando y compartiendo lo mejor de
cada uno. Potenciados notablemente por nuevas funcionalidades de las
herramientas, hasta ahora exclusivas de BI, que serán únicas y capaces de
trabajar de forma trasparente sobre ambos entornos. Solamente debemos mirar
como fabricantes como SAS, Tableau y otros muchos empiezan a sacar conectores o
métodos para conectar con Hadoop a través de HIVE, Pig u otros productos del
ecosistema.
Salu2,
Chema Arce (@ichemaarce)
No hay comentarios:
Publicar un comentario