El Rincon del BI

Descubriendo el Business Intelligence…

Webminar sobre Talend Open Profiler (Data Profiling)

Posted by Roberto Espinosa en 29 octubre 2010


Ayer asistí al Webminar que Talend presento sobre su producto de Data Profiling y Calidad de Datos, llamado Talend Open Profiler. Conocía un poco el producto de una rapida review que realice en mi blog hace unos meses, hablando sobre el tema de la identificación de los origenes de datos para la construcción de un DW y los tipos de herramientas necesarios para esa tarea (incluida la revisión de la calidad de los datos, tan necesaria para el éxito de un proyecto de BI).

Configuracion de conexiones a BD y navegación por el catálogo

En la presentación se explicaron los diferentes productos que tiene Talend (Talend Open Studio/Integration Suite para Integración de Datos, Talend Open Profiler/Talend Data Quality para calidad de datos y Talend MDM para gestión de datos maestros). Además, se realizo una demo sencilla para ver las posibilidades de Talend Open Profiler revisando datos maestros de clientes de un portal de ventas Web (en concreto, los datos de direcciones de Email).

La herramienta nos permite navegar por nuestros esquemas de tablas en la base de datos y ademas realizar una serie de análisis como:

  • Overview Analysis: analiza los esquemas de base de datos, devolviendonos información sobre tablas, filas, número de registros, indices, etc.
  • Table Analysis: análisis sobre la definición de una tabla, verificaciones de dependencias, etc.
  • Column Analysis: analisis especifico sobre el contenido de un campo. Para cada campo, se pueden seleccionar los indicadores de análisis (tales como valores estadísticos, número de registros, valores nulos, longitud mínima, longitud máxima, valores duplicados, etc.). Además, podremos indicar patrones de validación sobre los campos, para verificar que están correctamente definidos (tanto con expresiones regulares como con patrones sql).

En el análisis de campos, además de la utilización de estadísticas sobre los valores de los campos o el análisis de patrones predefinidos, podemos configurar nuestros propios patrones utilizando expresiones  regulares o  SQL, lo que nos da una gran potencia de personalización de las verificaciones que podemos realizar sobre los valores de los campos. También podremos construir nuestro propios indicadores personalizados para obtener información especifica sobre los campos o realizar análisis de frecuencia de patrones en el contenido de estos.

Al analizar la información de los análisis realizados, la herramienta nos permite, a partir de los gráficos de resultados, acceder a los registros específicos asociados. Por ejemplo, si hay campos que no cumplen un determinado patrón, podremos entrar a visualizarlos para establecer las correspondientes medidas de corrección sobre ellos o tenerlo en cuenta en la definición de nuestros procesos ETL.

Ejemplo de análisis de un campo

Si estaís interesados en conocer mas sobre estas herramientas, podeís visualizar los diferentes Webminar que la gente de Talend prepara regularmente para hablar de sus productos (tanto de iniciación como de casos prácticos concretos).

Deja un comentario