Para aquellos que como yo viven de la tecnología, que mejor que un baile navideño. Os dejo y os doy mis mejores deseos bailando, con mis hijas, como ayudantes de Santa Claus.
Feliz Navidad y Feliz 2008
José María Arce.
Caminando hacia el Big Data y para todos aquellos apasionados del Business Intelligence en general . Entra, comparte, disfruta y colabora... Todas las opiniones son exclusivamente personales y no representan a ninguna firma.
Os recomiendo su lectura, podeis acceder a dicha publicación "pinchando" sobre la portada. Teneis la posibilidad de descargar un pdf completo y gratis. Personalmente prefiero tenerla en papel (suscripción) y coleccionarla, debido a la calidad de la publicación y al interes de los articulos de la misma.
Que la disfruteis.
Chema Arce.
Preguntas y comentarios recibidos:
Sergi pregunta: Indicadores contenidos en la Fact Table precio_unidad y coste_unidadSon propios del producto, ¿Por qué no se representan dentro de la dimensión Producto?, ¿Qué motivos de peso hay para romper la 3 forma normal?.
Respuesta: Tal y como adelante, el objetivo del modelo (ejemplo) solamente trata de haceros ver como hace años, finales de los ochenta, muchas personas ya se rompian la cabeza para intentar montar algo para poder analizar la información de forma más agil.
Estos temas los veremos en los siguientes modelos. En cualquier caso, efectivamente el precio unidad y el coste, logicamente deberian ir asociados al producto, pero no dentro de la dimensión producto (o no de forma normal), pues dichos valores varian con el paso del tiempo, basicamente podemos diseñar versionning (algo coñado y dificil de manejar para un simple usuario) o montar una fact especifica, ya veremos que es lo más conveniente.
Bueno en el modelo propuesto, es más que discutible si hemos roto o no la tercera forma. Pues a un simple vistazo tenemos unas tablas con codigo y descripción, siendo esa primary key la clave foranea de la tabla de hechos, el atributo level es un artilugio informatico, al igual que un flag u otra cosa.
Pero te adelanto que en este caso el fin justifica los medios, en DW lo normal es la desnormalización... poco a poco.
Sergi pregunta: Pongamos por caso que un determinado producto no se vende nunca, ¿Cómo podemos saber su precio unitario y el coste por unidad?
Respuesta: Buena observación y buen analisis del modelo. En la mini estructura propuesta, que repito que no tiene nada que ver con lo que haremos, solamente estariamos "procesando" las ventas, por lo tanto sin venta no habría otros datos. Estas en lo cierto.
Dimensiones genéricas (Aglutinación de niveles)
Aquí vengo a hacerte una propuesta, pero primero desarrollo el problema.
Sergi pregunta: Al tener una aglutinación de niveles, la Fac. table debe almacenar datos con diferente nivel de granularidad y NO siempre todos los indicadores son agregables, así mismo este hecho hace crecer el volumen de datos de la Fact Table.
Respuesta: Efectivamente este modelo, para bien y para mal, permite este tipo de cosas. Lo cual obliga que en función del nivel del dato guardado en la table fact, existan valores vacios en algunas métricas. Posiblemente este y otras cosas, que supungo que detectarán el resto de lectores, han propiciado que hace años no se usen este tipo de modelos. Además el tema de datos aditivos son conceptos que practicamente han aperecido con el uso de herramientas DSS/EIS actuales (desde principios de los 90).
Sergi pregunta o propone: Por eso yo te propongo lo siguiente, la clave de las dimensiones debe ser explicativa NO subrogada, es decir te estoy pidiendo que rompas la segunda forma normal en pedazos y en algunos casos la primera permitiendo así las Fully Functional Dependencies.
Generar una clave explicativa y única, y que aparte sea numérica es posible ya que para cualquier conjunto finito es posible generar una bijeccion con los naturales.
Pero tal vez quede más claro con el siguiente ejemplo, la dimension de tiempo almacenará como clave el número yyyymmdd es decir el primeo de enero de 2006 se expresará 20060101 y el 31 de diciembre 20061231. únicamente almacenaremos el mínimo nivel de detalle, pero este contendrá ya la información de los niveles superiores.
Por ejemplo para consultar las ventas del año 2006 el where podría ser…
WHERE id_tiempo between 20060000 and 20069999;
Para consultar las ventas de enero...
WHERE id_tiempo between 20060100 and 20060199;
Respuesta: A la primera parte de tu propuesta comentarte que llegaremos a otras formas de hacer las cosas, pues por eso hemos avanzado en estos años. El tema de las claves, que detecto que tanto os gusta a todos, no es un tema tan alegre el cual se pueda definir sin ver un ejemplo real, el tipo de clave, si estan o no codificadas, si las claves pueden ser reutilizadas, etc... Seguro que más adelante sale el tema y podemos debatir a nuestro gusto.
Sobre el ejemplo que propones para del desarrollo de una dimensión temporal, decirte que es completamente necesario disponer de todas las claves y ser muy escrupuloso con ellas, pues imagina unas consultas como las que propones sobre un DW de telco, los cuales tienen tablas fact de muchos millones de registro, el sistema lo dejarias colapsado y veriamos si responde. Las consultas deben salir por claves, excepto con DB2 lo ideal es que sean numericas, pues de lo contrario adios al tiempo de respuesta, tambien muy importante el uso de indices (otro mundo), pero consultas por cadenas o "between 20060100 and 20060199" se me antojan muy pesadas.
En cualquier caso, la curiosidad me puede. La proxima vez que este en uno de mis clientes gordos, intentare lanzar una query de ese tipo...
Saludos y muchas gracias por compartir tus ideas y comentarios... esperamos a los demas y sus aportaciones.
¿Qué crees que contiene el fichero? ¿Podrías obtener más información que la incluida "a primera vista"?
No os preocupeis, por el momento no existe mucha trampa o truco, solamente pretendo que todos seamos capaces de comprender el contenido del fichero.
Supongamos que deseamos montar un pequeñito modelo OLAP tomando como punto de partida ese fichero.
¿Qué diseño propones? Espero tus comentarios y la descripción o explicación de tu modelo.
Para todos aquellos que quieran participar en este ejercicio público e ir avanzado en las diversas técnicas de modelización entre lo dos... espero vuestros correos en jmarce@movistar.net
Todos los modelos propuestos serán incluidos, valorados, analizados y explicados.
Os espero.
24/10/2007
Hola a todos y gracias por vuestros correos y modelos propuestos. Os pediria que para ser exactos y no dar lugar a esquemas erroneos, me paseis el modelo ya representado a través de cualquier herramienta, solamente necesito el dibujo del modelo y con sus campos y claves identificados. Algunos ya me los habeis enviado, vale perfectamente en formato .jpg, simplemente es para incluir todos y ver la diversidad de vuestros planteamientos.
A continuacion os pongo los nombres o nick de los participantes, tampoco estaria mal tener vuestros e-mails para montar nuestro mini foro, pues algunos habeis contestado exclusivamente por la opcion de comentarios. Lista de participantes:
* Toad
* Juan Vidal
* Diego Arenas
* Alvaro Galan
* Jordi Isidro Llobet
Quedan dos personas de confirmar... pero podemos ir empezando. Según reciba los jpg de cada uno, lo pondremos en el blog y discutiremos las ventajas e inconvenientes. Tal y como os adelante, ire introduciendo nuevas necesiadades y conceptos para ir subiendo la dificultad.
Nota, ojo a los puristas de Kimball pues al final espero que podamos demostrar las limitaciones de las estrellas puras y otros trucos para hacer versionning y controlar los cambios sobre datos de dimensión, sin "putear" al usuario final con mil criterios temporales... ya veremos que conseguimos entre todos.
Una cosa más, habeis conseguido que cambie cierta percepción sobre el nivel en técnicas de diseño, pues algunos teneis un nivel muy bueno.
Como bien sabéis, los que me conocéis, soy un "enamorado" del sector sanitario y farmacéutico, este último con grandes deseos de entrar en combate y abordar algún gran proyecto de BI o incluso como futuro reto profesional.
El pasado 18 y 19 de septiembre asistí al evento organizado por Expansión Conferencias sobre Balanced Scorecard en el Sector Sanitario. Intentar resumir el contenido de un evento tan cargado de materia y tan concentrado es francamente difícil. Para mi de lo más destacable fueron algunos de sus ponentes y dado mi faceta técnica mi propia visión de sus soluciones.
Una de las firmas de servicios profesionales, y única patrocinadora del evento junto con Business Objects, intento hacer una defensa de un supuesto CMI, aun cuando lo visualizado en las transparencias no obedecía a la información visualizada sobre la solución. Ya sabemos que el papel lo aguanta todo. En definitiva nos enseñaron un proyecto de Data Warehouse con algunos Cuadros de Mando asociados, que no BSC.
También destacable y muy comentado por diversos asistentes, el mal gesto o talante de un personaje (O.A.) el cual se dirigió a mi como "Tu eres competencia.." en lugar de un cordial y educado "Somos colegas...".
Centrándonos exclusivamente en la parte profesional en dicho evento me vinieron a la cabeza varias ideas principales:
1) El grado de madurez estratégica de los Hospitales públicos y privados en materias de Business Intelligence y, en algunos casos, el largo camino recorrido.
2) La disparidad de soluciones empleadas. En algunos casos con una ausencia nada justificada de herramientas especificas habiendo desarrollado parches con Excel.
3) Casi me atrevería a someter a examen cada uno de los modelos de datos empleados. Suponiendo que las estructuras sean las correctas, me parece que solución del DW aplicado, en casi todos los casos, obedece a una ”colección” de simples estrellas.
4) Las diferentes formas que tiene cada uno de ver a agrupar los indicadores de negocio y, supuestamente los diseños que deberían tener por debajo. Mucho “cubo” y poco Data Warehouse.
También dicho evento me ha permitido confirmar que la solución que hemos diseñado desde Bull España,S.A. para el Hospital San Cecilio de Granada es de las mejores y, sin lugar a dudas, es bastante más escalable y flexible que la otras visualizadas. También me he dado cuenta del poco marketing que hacemos desde Bull ante una solución tan adecuada.
Algunos de los ponentes que han brillado con luz propia y que ahora recuerdo son:
* D. Miguel Ángel Asenjo – Director Técnico – Hospital Clínico de Barcelona
* D. Carlos Emparan – Director Gerente – Hospital Fundación Calahora
* D. Héctor Izquierdo – Resp. Control de Gestión – Hospiten
* D. Fco. Moreno – Director Centro Rehabilitación – FREMAP
* D. Joan Guix – Gerente – Agencia de Salud Pública de Barcelona
* D. Jaime Nieto Cervera – Subdirector Médico para S.I. y Evaluación – Hospital Vigen del Rocio.
Como resumen final y de forma genérica, comentaría que vimos mucha estrategia, mucho interés, mucho camino hacia el Business Intelligence, diversos Cuadros de Mando pero poco o muy poco Balanced Scorecard real y funcionando.
Lo cual tampoco es malo, pues los demás también tenemos que comer y ayudar a nuestros clientes a desarrollar sus estrategias, sin las cuales desde luego no existiría BSC, pues en este tipo de proyectos lo de menos en la parte técnica… y lo dice un técnico o mejor dicho “ex” técnico.
Un cordial saludo,
José María Arce.
Creo que es importante destacar el nivel de los profesionales que escriben en la revista y el contenido de la misma. Además existe un numeroso equipo de profesionales que se encargan de ponerlo todo en bonito, de garantizar la calidad de las imagenes, del papel, del diseño y un largo ecetera... no sabía que esto fuera tan complicado.
Artículos publicados:
Nº1 - Entrevista al D.G. de Cognos España D. Fernando Rumbero. (Descarga Completa) (La opinion de Todo-BI)
Nº2 - BI en el Hospital San Cecilio de Granada. (Acceso Sumario) (La opinion de Todo-BI)
Nº3 - BI como solución estratégica ante la nueva revolución del sector audiovisual: Publiespaña.
Al final el esfuerzo de todo el equipo, ahora casi familia, ha merecido la pena. Hemos conseguido una acogida en el mercado fuera de toda duda y somos referenciados en los principales portales sobre BI (TodoBI, IS-Portal,...).
Un saludo,
José María Arce.