15. Business Intelligence Open Source. Proyecto EnoBI usando Pentaho.
Posted by Roberto Espinosa en 15 abril 2010
Tal y como prometimos, vamos a replicar nuestro proyecto EnoBI utilizando herramientas Open Source. En concreto, vamos a utilizar Pentaho y todo el conjunto de aplicaciones del que disponemos en la Community Edition.
Han pasado ya 5 meses desde que empezamos a «estudiar» para adentrarnos y profundizar en el interesante mundo del Business Intelligence. Hemos visto muchas cosas, teoría, práctica, ejemplos, etc, que ademas nos han permitido profundizar en el uso de varias herramientas (Mysql como base de datos, Talend como herramienta ETL y Microstrategy 9 como plataforma integral de Business Intelligence).
Dando una releida a todo lo publicado, en especial lo referente al proyecto EnoBI (que era un modelo de empresa real dedicada a la elaboración de vinos), y repasando conceptos, teoría, opiniones leidas en otros blogs, libros de referencia, etc., llega el momento de revisar el modelo definido, ajustarlo, corregirlo (pues seguramente hemos cometido errores de principiante) y ampliarlo teniendo en cuenta cosas que no consideramos en su día (por ejemplo, el tratamiento de las dimensiones lentamente cambiantes (bis), las claves subrogadas, creación de una area de stage, etc). Ademas, vamos a ampliar el modelo de datos para incluir información de presupuestos para poder comparar los datos de ventas reales con los presupuestados.
Este revisión del diseño de nuestro modelo (modelo conceptual y modelo físico) será el punto de partida de la implementación del sistema BI, pero utilizando, en este caso, las siguientes herramientas:
- Base de datos: Oracle 10g Enterprise.
- Herramienta de Modelado: Oracle SQL Developer (no dejeis de leer el articulo referente a él en dataprix.com) y Sybase Power Designer.
- Procesos ETL: Pentaho Data Integration (Kettle).
- Sistema BI: Pentaho Community Edition y todas las herramientas del proyecto (Pentaho BI Platform, Mondrian, Pentaho Reporting y Weka).
Antes de continuar, vamos a hacer una recopilación de fuentes que utilizaremos para el desarrollo de la evaluación.
- Libros:el mundo Pentaho pega fuerte con la aparición de varios libros. Los que yo voy a mirar para las pruebas:
- Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL®. Roland Bouman y Jos van Dongen. ISBN: 978-0-470-48432-6.
- Pentaho 3.2 Data Integration- Beginner’s Guide. Maria Carina Roldan. ISBN: 978-1-847199-54-6.
- Documentación: en el proyecto Pentaho existe una amplia documentación de todas las herramientas (Pentaho BI Platform, Kettle, Mondrian, Pentaho Reporting y Weka) . La parte de Pentaho Data Integration (Kettle) esta traducida al castellano gracias a la gran aportación Bernabeu Dario (que colabora en muchos sitios, al igual que con su metodologia Hefesto para el diseño de DW).
- Web y blogs: hay una comunidad muy grande de gente trabajando con Pentaho y compartiendo sus conocimientos y experiencias. Aquí os dejo alguno de los links que he encontrado:
- Red Openbi: en esta red hay varios grupos de trabajo con productos Pentaho. En castellano.
- Almacen de datos: algunos tutoriales sobre Pentaho.
- Analyse This: blog de Prashant Raju con ejemplos trabajando con Pentaho.
- Blogs de la comunidad Pentaho: Matt Caster on Data Integration y alguno de los gurus y promotores de los proyectos de Pentaho.
- Forums de Pentaho: foros de la comunidad donde consultar nuestras dudas o leer consultas anteriores. También tenemos los forums en castellano.
- Video Tutoriales de Pentaho en la comunidad redopenbi.com. Otros video tutoriales: Instalación de Pentaho, Videos y recursos de DataMining con Weka.
- Todobi.com: amplia información sobre todos los productos de Pentaho: Kettle, Mondrian, Pentaho, Weka, jpivot, etc.
- Dataprix.com: coleccion de articulos, tutoriales. Interesante una imagen virtual Vmware con una instalación completa de Pentaho 2.0.. Incluye ejemplos practicos de todo (Kettle, Dashboard, Informes, etc).
Empecemos…
Miguel Angel Perez Gomez said
Hola Roberto,
Como siempre tengo que empezar alabando la calidad de blog, es de los pocos a los que estoy subscrito y siempre lo leo.
Aunque esta vez no serán sólo piropos ;-).
Es sobre Pentaho. No se si lo dije anteriormente pero donde trabajo estamos empezando a implantar una plataforma BI.
Nosostros evaluamos bastantes soluciones opensource (tema presupuestario): pentaho, jasperserver, spagobi, openi, openreports, birt, etc. Muchas nos encantaron, todas con sus puntos fuertes y sus puntos débiles.
Al final nos decantamos por Jasperserver por varias razones: facilidad de instalación y administración, etl muy potente y sencillo (prefiero talend o por hoy antes que kettle) y sobre todo la parte de reporting es la mejor sin lugar a dudas (sólo birt se le aproxima). No tiene datamining y al igual que su parte de etl, la de analisis es externa (Mondrian).
El caso es que pentaho como solución BI integral está muy bien (siendo objetivos es la más completa), de hecho estuvimos dudando hasta casi hasta el final, pero hubo ciertas cosas que no nos gustaron nada (y creo que a mucha gente tampoco). Obviando el tema de que muchas cosas son mucho más manuales que en jasperserver aunque también son mucho más potentes (instalación, consola de administración, etc.), nosostros apreciamos que Pentaho está abandonando su versión Community (CE). De hecho hay un pdf que pódeis encontrar en su web en la que se advierte que la CE solo se entiende para entornos de prueba y desarrollo. Nosotros vimos como que están forzando a elegir la versión de pago dejando desnuda a la CE. Dicen que son Opensource, de manera estricta lo son, pero en la practica de que te vale tener un porrón de líneas sin comentarios ni documentación?. No digo que no haya buena documentación de Pentaho, que la hay, pero siempre por parte de terceros. No apreciamos un mecenazgo por parte de Pentaho, sino más bien muchas ganas de hacer caja (cosa licita por otra parte).
Después de este rollo ahora viene la queja. En la red existen páginas y blogs que crean opinión (como el tuyo), y sinceramente no veo sino un servilismo total a pentaho, cuando existen otras soluciones integrales muy buenas como jasperserver, spagobi, etc. Habiendo en estos proyectos un verdarero mecenazgo por parte de un grupo o empresa (de hecho spagobi es totalmente opensource) y no tantas ansias por hacer caja como tiene pentaho.
Bueno siento lo extenso del comentario y me despido volviendo a hacer hincapie en la calidad de tu blog.
Salu2
respinosamilla said
Hola Miguel Angel:
Muchas gracias por tu opinion. Veo que habeis avanzado bastante en vuestro proyecto BI y que habeis profundizado bastante en los productos. Y esta bien que se sepa todo esto que cuentas.
Yo, por mi parte, no tengo ningun interes especial en Pentaho. Es cierto que es uno de los productos de los que mas se habla, de los que mas información hay (incluso libros), y que mas completo parece. Lo de si es mejor o peor, o como evoluciona el producto, yo no conozco demasiado, aunque de los que he probado, es el producto que mejor pinta tiene (sin haber entrado en JasperServer). Tambien estuve trasteando otra solución de la que hablas, Spago, que vi que estaba un poco verde todavia.
Yo tambien he apreciado que la solucion Community estaba siendo dejada un poco de lado (no tienes mas que ver como Talend ha evolucionado la versión Open en comparación con Kettle), pero no sabia lo que tu dices del documento pdf donde se recomienda esta para entornos de prueba y pasar por caja por la profesional.
Lo que estoy intentando en el blog es profundizar en los diferentes productos (como he hecho con Talend o con Microstrategy), y luego compararlos con otros (como voy a hacer con Pentaho, Kettle, etc), intentando aportar toda la información posible, y dando un punto de vista objetivo.
Asi que ya que has hablado de JasperServer, puede ser una buena opción para probar una vez termine de «liquidar» Pentaho. De momento, de las cosas que he probado me gusta mucho Microstrategy (la reporting suite creo que es una muy buena opción para pequeños proyectos, pues la solución es muy completa). Respecto a las ETL´s, creo que Talend es mucho mas completo que Kettle, aunque este es mas facil de usar y mucho mas intuitivo (Talend para mi ha sido un poco complejo de entender).
Si te animas a contar lo que estais haciendo en tu empresa, te abro el blog para que tu tambien escribas. Seria interesante ver todo lo que habeis descubierto o analizado.
Un saludo y gracias por tu opinión tan interesante.
Miguel Angel Perez Gomez said
Hola Roberto,
El pdf del que te hablo es este:
http://wiki.pentaho.com/download/attachments/12386846/community_user_guide.pdf?version=1
En un par de parrafos pone:
Community Edition or Enterprise Edition?
The BI Suite Community Edition is ideal for:
• Business intelligence aficionados
• Open source software programmers
• Early adopters
• College students
Pentaho no longer suggests using Community Edition for enterprise evaluations. If you are a
business user interested in trying out the BI Suite Enterprise Edition, follow the Enterprise Edition evaluation link on the pentaho.com front page, or contact a Pentaho sales representative.
Con lo cual nos viene a decir que la CE no sirve ni para una evaluación real en una empresa…en que lugar deja eso a la CE?.
En cuanto a lo escribir, te lo agradezco pero hoy por hoy apenas tengo tiempo para tener una minima dedicación seria para tu blog. Lo que si te digo es que a ratos (cuando la vida me deja) estoy documentando todo el proceso de implantación, describiendo la poco metodología que hemos empleado y todas los problemas que estamos teniendo; todo ello para elaborar un documento que pienso dejar a todo aquel este interesado. Sería muy buen lugar tu blog para publicarlo.
Un saludo y gracias a ti por tu blog.
PD1: Atención al Spanglish de Pentaho: Business intelligence aficionados.
respinosamilla said
Creo que queda bastante claro lo que dices, Miguel Angel. La verdad que da que pensar un poco. Y muy bueno lo del Spanglish..jeje
A ver si cuando tengas terminado el documento de vuestra experiencia con el Open Source BI lo compartes con todos. Seguro que sera interesante.
Un saludo.
Salvador Salvatierra said
Me parecen muy interesante la guia que vas dando soy nuevo en el manejo de la mayoria de estas herramientas. y con tu post me has ayudado con algunas ideas y cosas que puedo hacer.
Creo que la mayoria empezamos a usar pentaho por las facilidades y cantidades de ayuda que ofrece.
Aunq Talend tambien me parece muy interesante. Si logro hacer un proyecto interesente le enviare la documentacion para que sirva para el resto.
Saludos
respinosamilla said
Hola Salvador:
me alegro que te este siendo de utilidad el blog. De eso se trata, de aprender y de que sirva de guia para ir conociendo cosas. Y seria muy interesante que compartieras con todos las cosas que vayas descubriendo.
Un saludo
sistemas said
lo maximo, me sirvio de mucho, gracias
paleo cereal said
Heyа i am for the first time here. I came across this Ьoard and I find It really սseful & it helped me out much.
I hοpe tօ givе something back and help others like you aiԁed me.