Los sistemas de información, así como los diversos dispositivos capaces de generar información están provocando un cambio significativo en nuestra sociedad, a la par de una nueva necesidad de análisis del ingente volumen que generan.
Las bases de datos que nacieron sobre el año 1968, fueron evolucionando hasta las bases de datos relacionales (1970) y posteriormente con la aparición del Data Warehouse (1983), se han quedado limitadas para la gestión, tratamiento, almacenamiento y manipulación de estos brutales volúmenes de información. Además de grandes volúmenes de información, también debemos considerar que en la actualidad el 80% de los datos que se generan son datos no estructurados. Hasta hace poco solamente considerábamos como fuente de análisis nuestros propios datos, hoy existen nuevos dispositivos interconectados e inteligentes, datos de radiofrecuencias, datos en las redes sociales, en emails, procedente de sensores, datos en la propia web y en sus logs, etc…
Con todo este mar de datos, aparece un concepto el BIG DATA. Concepto de difícil definición que agrupa todos los datos que se están generando día a día, con especial relevancia en aquellos que no son propios de nuestra organización e incluye la necesidad de manipulación y análisis sobre los mismos.
En definitiva el Big Data hace referencia al conjunto de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Tras este concepto se esconden las “4V” que definen el Big Data: Volumen, Variedad, Velocidad y Valor.
• Volumen: no cabe duda, las cifras que se manejan son impresionantes y las “soluciones” Big Data deben procesarla.
•
Variedad: A los datos estructurados conocidos por todos, debemos incorporar datos no estructurados y semiestructurados.
•
Velocidad: es necesario disponer de soluciones que nos permitan analizar información casi en tiempo real, por ello la velocidad es fundamental.
•
Valor: Tema algo más complejo de gestionar y tratar. En los datos no estructurados existe mucho “ruido”, el cual debe ser discriminado y obtener valores o conclusiones con el resto.
¿Hasta dónde el Big Data?
Las capacidades del Big Data solamente están limitadas a nuestra imaginación. En cierto modo en ello reside la grandeza de la oportunidad. En la actualidad se están diseñando soluciones sobre:
- Análisis del sentimiento; que se piensa y se dice de una empresa, marca, programa televisivo, etc…
- Análisis del riesgo; en un mercado cada vez más complejo, es necesario detectar en tiempo real la propensión al riesgo de determinadas operaciones financieras, etc…
- Análisis del comportamiento de …: aquí se analiza de todo, desde el comportamiento de nuestros clientes potenciales dentro de nuestra web, hasta el comportamiento de los turistas en una determinada ciudad gracias a las fotos goereferenciadas publicas en Fliker… Sin lugar a dudas el análisis de miles de cosas que colgamos en la red puede aportar mucha información sobre pautas de comportamiento, hábitos de conducta, hábitos de compras, lugares que frecuentamos, etc…
¿Dónde están los datos y de qué tipo son?
Dentro del Big Data se encuentra un gran todo, tanto datos “tradicionales” y estructurados, el gran aporte del Open Data, así como una inmensa mayoría de datos no estructurados (redes, fotos, blog, webs…). Algunos datos están en reposo y otros son datos muy vivos y de corta vida. En función de la tipología del dato, su gestión, acceso y tratamiento puede variar significativamente.
Los datos en movimiento no siempre son almacenados, son analizados en tiempo real. Por ello existen soluciones que se apoyan más en “bus de datos”, sin almacenamientos y sin modelos asociados. Suelen ser datos procedentes de miles de sensores y equipos específicos. Cada negocio requiere una política de análisis diferente o combinación de ambas. Suelen ser muy requerido el análisis de datos en movimiento para temas de fraude, entre otras cosas. De las características del BIG Data los datos en movimiento cumplen con todas las “V”, v de volumen, la v de variedad, la v de valor y la v de velocidad.
Los datos en reposo, pueden ser tratados de una forma diferente y son almacenados para su posterior análisis. En función de la naturaleza de los datos podremos combinar los Data Warehouse (información estructurada) con otros almacenamientos no estructurados como podría ser los residentes en
Hadoop, sobre el cual hablaremos en mi siguiente articulo. De las características propias del BIG Data los datos en reposo cumplen con varias “V”, v de volumen, la v de variedad y la v de valor.
Hadoop, aunque le dedicaremos un especial, es una de las piedras angulares del Big Data. Hadoop toma especial valor dado el volumen tan impresionante de información y la velocidad necesaria para su proceso. No estamos ante una BBDD, hablamos de un framework de desarrollo y entorno de ejecución con capacidad de procesar gran volumen gracias a sus características de procesamiento por lotes, escalabilidad en almacenamiento y nodos, etc…
Conviene recordar que bajo el paraguas del Business Intelligence se encuentra la necesidad de analizar los datos para la correcta toma de desiones, por ello el Big Data se encuentra incluido dentro del BI. El Big Data requiere de tecnologías para la gestión y el tratamiento de los datos muy variadas, muchas de ellas ya usadas en BI. El Big Data amplia, convive, mejora y complementa perfectamente a los actuales sistemas de de información para la toma de decisiones, los tradicionales Data Warehouse pilares fundamentales de las soluciones de Business Intelligence.
Conclusiones:
El Big Data como otras tendencias de los Sistemas de información está llamado a jugar un papel clave, incluso creo que por encima de su valor más real. Los modelos estadísticos basados en Big Data y especialmente en función de su origen, tiene limitaciones en sí mismos, por ello deben ser manejados con cautela.
Por ejemplo (opinión personal): si estamos analizando las audiencias sociales de un determinado programa televisivo a través de Twitter, los datos que reflejan necesariamente deben ser limitados o parciales. Básicamente por no ser una muestra amplia o representativa del universo. Solamente una parte del universo usan y manejan las tecnologías o los dispositivos necesarios. Personalmente no me imagino a mi padre mandando mensajes por Twitter. Lo cual no quita que estamos ante una gran solución para poder “medir” el comportamiento o el sentimiento de un sector de la población ante un programa determinado.
Tras casi dos décadas de Business Intelligence en España, podemos afirmar sin lugar a equivocarnos, que no es oro todo lo que reluce y que en la actualidad la mayoría de los sistemas denominados Data Warehouse están muy a medias o con grandes carencias. Considerando que las empresas tienen grandes problemas en la toma de decisiones corporativas apoyándose en los datos propios y estructurados, que nos deparara el enriquecer los sistemas con datos existentes en la “nube”, en las redes sociales y debiendo procesar datos no estructurados…
Entendiendo que puede ser así: ¿estamos maduros para afrontar el reto del Big Data y el análisis de lo desconocido?, ¿Es el Big Data la nueva panacea decisional?. Mi respuesta es NO o por lo menos no con los recursos actuales.
Las empresas ya iniciaron mal, en su mayoría, el camino marcado por el Business Intelligence, al determinar erróneamente que se trataban de perfiles técnicos. Hoy empiezan a darse cuenta de que se trata de un colectivo de profesionales con diversos roles y perfiles, desde los expertos analistas, los ingenieros, los matemáticos y los técnicos entre otros. Las empresas deben reconsiderar el invertir en este colectivo de profesionales, el denominado “
Data Science Team”. Algo completamente necesario si desean dar un salto cuantitativo y cualitativo en esta nueva era informacional.
1 comentario:
Estuve hace poco en la presentación Oracle sobre Big Data y personalmente creo que ni las que lo venden saben para que sirve.
Creo que su uso en el Business Intelligence sirve a muy pocas empresas y que su uso va a ser muy limitado pero parece que todo el mundo quiere lanzarse a hacer proyectos de Big Data sin saber si realmente cumplen con la V más importante, VALOR.
Publicar un comentario