El Rincon del BI

Descubriendo el Business Intelligence…

Archive for the ‘Datos Publicos’ Category

¿Quien usa nuestros datos públicos?. ¿Podemos estar realmente tranquilos?.

Posted by Roberto Espinosa en 23 May 2010


Si habeis leido el periodico El Mundo este domingo (día 23 de mayo), nos encontramos en la página 10 un interesante articulo titulado «El Psoe crea una base de datos que cubre toda España«, donde nos cuenta que la «Factoria Leire» ha empezado a producir, con la creación de una herramienta informática que, con 36 millones de parámetros (casi nada), cubre al milimetro las 36 mil secciones electorales de España. Al ingenio (que a mi me asusta, conociendo a los políticos), le han llamado BLOISE, que viene a significar algo así como Base de Lectura Online sobre Información de Sectores Electorales.

Cuadro de Mando del Politico

La herramienta ha sido desarrollada  a nivel interno dentro del PSOE, utilizando datos del Instituto Nacional de Estadística, del Padrón, del Censo Electoral, de Elecciones, del Catastro, del Desempleo, etc, permitiendo a cualquier dirigente territorial del PSOE tener todo un estudio electoral, socio-demográfico y económico de su sección electoral( una sección suele agrupar entre 500 y 2000 votantes).

Hasta aquí todo parece normal, pero leyendo el artículo, se nos dice que cada sección tendrá un agente electoral, y ademas: «Esos 36.000 agentes electorales podrán saber en su sección electoral todo sobre todo tipo de datos de datos de los votantes: edad, sexo, nivel social, tendencia ideológica, recuerdo de voto o población inmigrante. El PSOE llegará hasta el nivel que lleguen los datos públicos que se facilitan. En algunos casos, a nivel provincial o municipal y, en otros, casi calle por calle«.

Viendolo de una forma general, parece interesante. Los partidos utilizan las nuevas tecnologías, los politicos son capaces de innovar,  bla bla bla…Entonces uno se para  a pensar y hacemos un poco de memoria. En una entrada anterior del blog vimos  fuentes de datos publicos de España, y como diferentes organismos proporcionaban al publico datos de lo mas variopinto (padron, información del censo, resultados de elecciones, obra públicas, desempleo,  etc). Igualmente, con un ejemplo práctico, extraimos datos de la web de la autoridad regional de Londres y fuimos capaces de realizar análisis con una herramienta de Business Intelligence por distritos (obteniendo interesantes conclusiones sin llegar a profundizar en demasia).

En ese momento uno se asusta un poco y empieza a pensar que datos hay disponibles por ahí y que uso se esta haciendo de ellos. En principio, podemos quedarnos tranquilos, pues al visitar algunas fuentes de datos públicos (como el censo municipal de Poblacion y Viviendas de 2001,  que recordemos es uno de los mayores estudios estadísticos que se realiza en nuestro pais cada 10 años), aparece la reseña «Datos protegidos por el secreto estadístico«, tal y como vemos en la imagen.

Instituto Nacional de Estadística - Secreto Estadistico

Intentamos comprobar si esto es verdad accediendo a los datos del censo de 2001, bajando al nivel inframunicipal (por debajo de las poblaciones). Seleccionamos una seccion de una población mediana (se supone que corresponderá a un barrio o quizas a una pedania de dicha población). A continuación, se nos pide el dato que queremos analizar y por que criterios. Seleccionamos Sexo, Edad y Pais de nacionalidad. Al intentar recuperar la información, el sistema nos impide el acceso y, tal y como veis en la imagen, aparece la siguiente leyenda:

«Una de las medidas adoptadas para preservar el secreto estadístico consiste en controlar el nivel de detalle de la información solicitada según el ámbito geográfico al que se refiere la consulta. En este caso no se satisfacen las especificaciones programadas.Por favor, formule su consulta con menor nivel de detalle, elija un ámbito geográfico mayor o acuda a «consultas a medida».«

Solicitud de datos en la web del Ine - Censo de 2001

Parece que podemos estar tranquilos, nuestros datos están protegidos y nadie podra usar técnicas avanzadas para cruzar diferentes estadisticas o datos para llegar a saber que en mi edificio gana el voto de Izquierdas o vive gente de clase  «media-alta» que llevan a sus hijos a colegios privados. Pero claro, nosotros no estamos en el poder. Nosotros no tenemos un alto cargo gestionando un Instituto Nacional de Estadística, una Agencia Tributaria, una Oficina del Censo Electoral, un Catastro, un Centro de Investigaciones Sociológicas, un Ayuntamiento o una Comunidad Autonoma. Nosotros no disponemos de información relativa a impuestos, resultados de encuestas, ni disponemos de las herramientas para poder juntar toda esta información, asociarla y poder utilizarla de una forma «interesada» para cumplir nuestros objetivos.

Entonces, me surge una duda mas. Si se supone que los políticos están ahí para solucionar los problemas de los ciudadanos, para mejorar nuestra educación, nuestra economía, nuestra salud. Para que vivamos mejor y progresemos todos. Entonces, si eso es así, que hacen utilizando esa información para cumplir sus objetivos (que parece ser que son otros de los que he indicado antes), y que no son mas que ganar las elecciones y perpetuarse en el poder. Que hacen utilizando herramientas a las que no deberían de tener acceso, para manipular la realidad, para saber demasiado sobre nosotros, para utilizar nuestros puntos debiles y mucha demagogia, y así saber que tecla hay que tocar, que hay que decir en cada sitio donde van, y donde hay que actuar para proteger sus intereses. Utilizando técnicas de Marketing de los más rastrero.

El articulo del El Mundo en cuestión

A mi, sinceramente, no me gusta leer noticias como esta. Me gusta que se utilice el Business Intelligence, sobre todo si es para mejorar cosas o para hacer seguimiento y corrección de políticas. Pero cuando todo se centra en un interes electoral, la cosa pierde color. Y podemos empezar a pensar que George Orwell, y su novela 1984, no estan tan lejos en el futuro, y ese Gran Hermano, que controla y que sabe que estamos pensando, se esta gestando y preparando para tenerlo todo bien controlado. Bueno, quizas he exagerado…hoy toca un poco de eso…

Igual, desde iniciativas como Pro Bono Público ( y su recopilación de fuentes de datos públicos de España) , se deberia de pedir, además de la apertura de los datos de las administraciones, también la definición de un código ético que impida el uso inapropiado de toda esa información, y que llegue a manos de alguién que la use con fines alejados al motivo que hace que esos datos sean públicos y accesibles a todos. Ahí queda la reflexión, para el que tenga ganas de pensar un poco, una tarde de domingo…

Posted in Business Intelligence, Datos Publicos | 2 Comments »

Otro interesante ejemplo de uso de datos públicos.

Posted by Roberto Espinosa en 13 abril 2010


Siguiendo con el interesante tema del uso de datos públicos (del que vimos un ejemplo de posiblidades de análisis en la entrada del blog Análisis de Datos Públicos de Londres, a la vez que haciamos una recopilación de algunas de las fuentes públicas mas importantes de España), podemos añadir y destacar alguna propuesta interesante:

  • Pro Bono Público: Aitor Garcia Rey lanzó en Julio de 2009 un desafio a las administraciones públicas con la creación de una asociación cuyo principal objetivo es el siguiente: «Ayudar a la promoción y la difusión de estándares, datos y plataformas tecnológicas abiertas entre las instituciones públicas«. Refiriendonos a sus propias palabras: «He puesto en marcha la asociación pro bono publico porque creo firmemente que Internet, la telefonía móvil y en general todas la nuevas herramientas que tenemos hoy en día a nuestro alcance pueden y deben transformar radicalmente nuestra relación con todo el estamento público: ayuntamientos, diputaciones, gobierno, departamentos públicos, etc.«

Esta inicitiva pretende ayudar  a la transparencia de las administraciones públicas y el acercamiento de las instituciones a la sociedad, promoviendo el desarrollo de librerías, plataformas, sitios web y proyectos Open Source en general, colaborando con los organismos en su adaptación a las nuevas tecnologías. Como primeros resultados, ya han puesto en marcha una web, llamada Datos Públicos, que pretende ser una recopilación de todos los datos abiertos al público en España, como un lugar donde se centralice toda esta información. Han puesto igualmente en marcha un concurso para el 17 y 18 de abríl, llamado En marcha: Desafio AbreDatos 2010, que consiste en elaborar un desarrollo express de uso de datos públicos, partiendo desde cero en grupos de 4 personas. Sino teneis nada que hacer ese fin de semana, puede ser un plan interesante.

  • Open Data Euskadi: otro proyecto de apertura de datos públicos que nos contaron nuestros amigos de todobi.com y a la que esperamos que se unan muchas mas administraciones en el futuro. Nos siguen contando cosas interesantes, como sus propuestas para el uso del business intelligence en las administraciones publicas (Todo lo que no son cuentas, son cuentos).

Para terminar, y para ver otro ejemplo de como podriamos estar utilizando estos datos publicos de una forma muy visual y bonita, os recomiendo la visita a la web del estado de Victoria, en Australia (gracias al blog de Prashant Raju por el link). Han desarrollado la iniciativa VisualPlace, que es una prueba realizada durante 6 meses como forma innovadora de capturar, explorar y visualizar información pública a traves de mapas. Podeis jugar con los mapas en el siguiente link (requiere Silverligth):

Iniciativa Visual Place de la region de Victoria - Australia

En la imagen, vemos el mapa de la región con las zonas coloreadas según la tasa de paro, incluyendo además las ubicaciones de las bibliotecas públicas. El mapa es totalmente interactivo y podemos ir seleccionando los indicadores a visualizar, su formato, escala, así como el tipo de mapa. En Australia también tienen su propia iniciativa de apertura de datos públicos, promovida en este caso por su gobierno central( ofreciendo en su web un variado catalogo de datasets ).

Posted in Datos Publicos | Leave a Comment »

14.11.2. Explotando los datos públicos de Londres con Microstrategy.

Posted by Roberto Espinosa en 31 marzo 2010


Con los datos de Londres recién sacados del horno y cargados en la base de datos, hemos construido un proyecto dentro de Microstrategy, dando de alta los atributos y sus jerarquias, todos los indicadores vistos, así como otros indicadores adicionales para el calculo de porcentajes o valores intermedios. El proyecto de analisis se ha simplificado lo máximo posible, pues no es nuestro objetivo considerar todas las posibles variantes y casuisticas que nos podriamos encontrar, pero si el plantear una serie de ejemplos reales que nos permitan ver las posibilidades de analisis que se presentan con los datos públicos y ver el partido que se podría sacar de ellos.

Definicion del modelo de datos en Microstrategy

Resultados de elecciones

Hemos procesado los ficheros de resultados de elecciones europeas de 2004 y 2009, así como las elecciones regionales de 2004. Para analizar los resultados, hemos creado un informe donde podemos seleccionar el año de la elección a visualizar, el tipo de elección de ese año, y el area de Londres de la que queremos ver el resultado. Para ello, añadimos los atributos Año, Tipo Elección y Area en la sección de paginación del informe, y los indicadores de análisis en las columnas (tenemos la opción en cada criterio de selección de indicar el valor Total para ver toda la información). Por ejemplo, en la imagen estamos viendo los resultados de las elecciones Europeas de 2004 para todas las areas de Londres.

Resultados Electorales - Porcentaje por Partido Politico

Igualmente, hemos definido otro gráfico para poder ver de una forma rápida la evolución del voto en las tres elecciones que hemos analizado. En este informe, igualmente, permitimos ver el analisis del total de resultados o el análisis de un distrito en concreto. Así podemos ver que area es de voto Conservador o de Izquierdas, y como ha evolucionado el voto. Por ejemplo, en la imagen podeis ver los datos del distrito de Newham, que es mayoritario de voto Socialista (Partido Laborista), ademas con un aumento de este partido en las últimas elecciones.

Comparativa Evolución Voto por Partido

Para cerrar el tema de los resultados electorales, hemos construido un informe resumen de resultados (con los valores númericos), incluyendo datos de participación, total de votos y porcentajes. Igualmente, podemos ver los resultados totales de la región o el detalle de cada distrito.

,

Datos Completos de Resultados Electorales y Participacion

Evolución del precio de la vivienda.

De todas las estadísticas relacionadas con la vivienda, tenemos tres muy interesantes (además con una serie temporal amplia que incluye varios años). En concreto, son los valores de precio medio de venta de las viviendas, el número de ventas realizadas en el ejercicio y el total de viviendas construidas (inicio de construccion). Hemos juntado las tres variables de análisis en un informe grafico de ejes de lineas verticales con dos ejes. Ademas, hemos incluido para todas las variables un linea de tendencia lineal para ver hacia donde apuntan los valores futuros según los serie histórica. El resultado del informe es el siguiente:

Evolucion Anual del Precio de la Vivienda, Ventas y Construccion

Como podeis ver, en Inglaterra también estan viviendo su propia crísis inmobiliaria con una bajada profunda de las ventas de casas, asi como una estabilización e incluso descenso moderado de los precios debido a la bajada de la demanda y a la crisis financiera. Sería interesante ver este mismo informe con los datos reales de nuestro pais.

Series Históricas de Poblacion.

Los datos de población histórica, incluidos en los datos públicos de Londres, abarcan desde el año 1801 al 2001. Estos datos pueden ser interesantes para ver series y poder ver como se ha modificado la población historicamente de forma general o en cada zona en particular. En el ejemplo siguiente, podeis ver la evolución por Zona (Circunscripción), desde el año 1901 al 2001.

Evolucion Poblacion 1901-2001 por Zona (Circunscripcion)

Utilizando la misma información, hemos preparado un documento Pdf que muestra, para cada distrito o area, la evolución de la población desde 1901 hasta la actualidad, comparandola con la evolución de la población total. Hemos generado la información utilizando un documento que se ha exportado en formato Pdf para su distribución. Os dejo el acceso al documento para que lo veais:

Distribución de población por edad.

En todo análisis demográfico que se precie, es de gran interes el estudio de la distribución de la población por edades. Esto determina muchos aspectos, como pueden ser las necesidades de colegios en una zona (al tener gran cantidad de población infantil), los servicios sociales para atender población jubilada (si el numero de personas de determinadas edades es muy grande), o simplemente para ver como evoluciona la población en la llamada piramide poblacional.

Con los datos del censo de 2001 referente a edades, hemos elaborado dos interesantes gráficos. En el primero, vemos de forma conjunta la distribución de la población total y de cada uno de los distritos de Londres. Es muy gráfico pues se ve toda la información junta y es sencillo realizar comparaciones y ver pesos de cada rango de edades.

Distribucion de la poblacion por Edad - Comparativa de todos los distritos

Hemos incluido la misma información en otro gráfico para poder ver de forma mas clara la piramide poblacional para cada distrito de forma separada (o para el total de la población de Londres). El resultado es el siguiente:

Distribucion de la Poblacion por Edad - Total de la Region de Londres

Podemos observar que mas de la mitad de la población tiene una edad superior a 30 años. Esto puede adelantar problema de envejecimiento de la población en el horizonte de dentro de 20 años (como ocurre, por ejemplo, en España). Incluso, podemos ver en el primer gráfico como la población de la ciudad de Londres (area llamada City of London), esta especialmente envejecida, pues casi el 75% de la población tiene mas de 30 años.

Economia.

Un tema muy de moda en todos los paises es la economía sostenible. De los datos de Londres, referidos a este tema, hemos analizado los ratios de reciclado de basuras (evolución histórica entre los años 1999-2009). Para ello, hemos utilizado un informe tipo tabla, usando umbrales para procesar los porcentajes de una forma mas visual. Veamos los resultados:

Informe de Ratios de Reciclado de Basuras (Evolución)

De forma gráfica, se ve claramente el aumento de los ratios de reciclado, lo que indica la concienciación cada vez mayor de la gente. Se podría completar esta información con el número de contenedores instalados para poder establecer políticas que permitieran aumentar los valores.

Grafico Evolucion Reciclaje por Circunscripcion

Otro aspecto muy interesante de estudio dentro de la economia es la población activa e inactiva y su distribución. Veamos un ejemplo de análisis con la información del censo del año 2001. Para ello, hemos construido un documento de Microstrategy del tipo tablero, donde hemos incluido la información de la distribucion de la poblacion por actividad (activos y no activos), y dentro de cada grupo, su detalle. La información se presenta de forma global y también desglosada por Sexo. El tablero nos permite igualmente ver la información total de la región de Londres o ver de forma detallada cada uno de los distritos.

Analisis de Actividad de la Población

Del informe se obtienen bastantes conclusiones curiosas. El porcentaje de mujeres inactivas es claramente superior al de los hombres (40% frente al 18% de los hombres). Igualmente, las mujeres aceptan mas trabajos a tiempo parcial que los hombres, y hay mas hombres autonomos que mujeres. De las personas que se dedican a cuidar a los niños y el hogar, el porcentaje de hombres es infimo con respecto al de las  mujeres (todo ello lógico, pues son más las mujeres que renuncian a trabajar o aceptan trabajos de menos horas para poder compaginar vida laboral y familiar).

Vehiculos

La información referente a los vehículos de una ciudad también puede resultar interesante. En nuestro ejemplo hemos combinado la siguiente información en un tablero: evolución del número de vehiculos en una serie temporal, evolución de la población para analizar el contexto del número de habitantes, distribución del numero de vehículos por hogar ( hogares sin vehiculo, hogares con 1 vehiculo, con 2, con 3 o con 4 o mas), distribución de vehículos por tipo y propietario (particulares o empresas/organismos), tipos de vivienda y evolución del precio de la vivienda. Con estos ultimos dos datos intentamos dar el contexto economico a la estadística (seguramente en zonas con viviendas con precios mas alto hay mas nivel adquisitivo y seguramente mas vehiculos o mas vehiculos por hogar). Igualmente, si la zona es residencial (tipo de viviendas bungalow o casas), también habrá mas vehiculos por hogar. El resultado del informe es el siguiente:

Tablero de Analisis de Parque Movil por Distrito

Hemos incluido la posibilidad de ver los datos totales o cada distrito por separado. Del analisis de un par de distritos, obtenemos conclusiones curiosas:

  • Distrito London City: el censo de vehiculos disminuye año tras año, lo que adivina que seguramente es una zona donde se esta produciendo una salida de población hacia zonas perifericas con la vivienda mas barata y sin los problemas tipicos de las zonas más centricas. Ademas, vimos que era una de las zonas con la población mas envejecida. Tambien es curioso que el 62% de los hogares no tiene ningún vehículo (seguramente será también la zona mejor comunicada con trasporte público, tipo Metro o Autobus). De la misma manera, en la City predominan los coches cuyos propietarios son empresas u organismos (53%), a la vez que la mayoria de viviendas (un 89%), son apartamentos.
  • Distrito Kingston-upon-Thames: el censo de vehiculos aumenta año tras año, y ademas, el 47% de los hogares tiene 1 coche y el 23% hasta 2 coches. Se podría explicar seguramente por la distribución de las viviendas, ya que el 64% de ellas son del tipo casa o bungalow. Seguramente estemos hablando de una zona residencial. Aquí el 95 por ciento de los coches son propiedad de particulares.
  • Distrito de Chelsea: es una de las zonas con la vivienda mas cara,pero ello no implica mas vehiculos por hogar, como habiamos supuesto anteriormente.

Tablero de Analisis del Censo. Cuadro de Mando de Londres.

Para terminar, vamos a construir un tablero (nuestro cuadro de mando de Londres), donde vamos a incluir información variada de la región, referente principalmente al censo de 2001 (el censo es uno de los mayores estudios estadísticos que se realiza, como en España, cada 10 años). Hemos construido tres pestañas diferentes en el tablero: Información Demografica, Actividad y Vivienda/Turismo.

En la pestaña Demografía, incluimos un lote de gráficos donde reflejamos: distribución de la población por Estado Civil, Nivel Estudios, Etnia, Religion, Pais Origen y Sexo. Ademas, hemos incluido los resultados electorales de la ultimas elecciones regionales, y una grafica dinámica para ver la evolución de la población desde 1801. Finalmente, se incluye otra gráfica para ver la distribución de la población por edades.

Cuadro de Mando - Londres (Informacion Demográfica)

En las pestaña Actividad, hemos incluido otro lote de gráficos con el objetivo de analizar la población desde un ambito sociolaboral, pudiendo ver la distribución total de profesiones, así como el detalle por sexo de estas, los porcentajes de personas activas e inactivas, y la distribución de dichos colectivos, para finalmente detallar esta información igualmente por sexo. Finalmente, en la pestaña Vivienda/Turismo hemos incluido una gráficas de evolución de los impuestos por vivienda y los ratios de reciclaje por un lado, y por otro lado el precio medio de venta de viviendas y el número de casas vendidas. Igualmente, hemos incluido un gráfico con la evolución de los ingresos por turismo, así como dos gráficos de area para detallar la distribución de los hogares y la tipologia de las viviendas.

Cuadro de Mando - Londres (Informacion de Vivienda)

La información es abudante  y se observan gran cantidad de cosas curiosas en los datos. Os enumero algunas:

  • London City:  el 60% de la población tiene nivel de estudios universitario, lo que se refleja en las profesiones ( el 77% son profesionales, manager o tecnicos, llegando al 81% en los hombres). Es una zona de voto conservador, con una poblacion en su mayoria mayor de 30 años y ateos (55%), y con un porcentaje alto de extranjeros (25%). Todo esto puede deberse a que en Londres tienen su sede muchos grandes bancos y entidades financieras.
  • Barking: distrito con un 60% de la poblacion sin estudios o con estudios primarios. Eso se nota en las profesiones (donde el 34% de los hombres son operarios o empleos básicos, y las mujeres el 36% son administrativas). Hay una mayor población juvenil y el voto mayoritario es laborista (socialista). La etnia dominante es la britanica (90%), al igual que la nacionalidad (87%). Seguramente se trata de un barrio obrero. Es mas, si teneis en cuenta la información de la Wikipedia, donde se habla de este municipio, podeis observar que este fue un distrito de vivienda social entre 1921-31, donde se construyeron 27.000 casas que alojaron a mas de 100 mil personas. Igualmente, después de la 2ª Guerra Mundial se construyeron allí casas para alojar a gente que perdio su vivienda durante la guerra. Eso explicaria muchos de los datos que hemos observado.
  • Wetmister: es una zona eminentemente turística, con unos ingresos por este concepto muy altos. Si leeis igualmente en la Wikipedia, podeis ver que este municipio o distrito es el que alberga la mayoria de instalaciones del gobierno de Gran Bretaña (el Palarmento, el Palacio de Buckingham o la Abadia de Wetmister). Igualmente incluye algunos de los puntos turísticos mas importantes de Londres, como son Trafalgar Square, Victoria Station,  el Soho, Hyde Park, Piccadilly Circus o la National Gallery. Esto puede explicar que también sea una de las zonas con la vivienda mas cara.
  • Tower Hamlets: es una zona donde hay una gran población de etnia asiatica (ver la Wikipedia). Esto fue debido a que hubo una gran necesidad de mano de obra para la industria textil, que se cubrió con habitantes asiaticos, sobre todo de Bangladesh. En esta zona, la religion musulmana constituye el 36% de la población y hay una población infantil y juvenil bastante alta con respecto a otras zonas de Londres.

Os dejo el enlace al flash generado para que vosotros mismos podais jugar con los datos reales (link aquí) y sacar vuestras propias conclusiones de análisis. Para poder trabajar con el flash, es necesario descargarse primero el fichero en local y luego utilizar Internet Explorer para abrirlo (primero abrimos el programa y luego desde él abrimos el fichero, con la opción Archivo–> Abrir), permitiendo la ejecución de los controles ActiveX que lleva incluidos. Según la resolución de pantalla, es posible que tengais utilizar el zoom del Explorer para poder ver los datos correctamente.

Como hemos podido ver con estos pocos ejemplos, con una información consolidada y correctamente normalizada, la cantidad de cosas que podemos analizar. Todo un mundo de posibilidades. Y quizas un nicho de mercado con mucho potencial para vender aplicaciones de Business Intelligence a las administraciones públicas. Espero que os haya resultado interesante el experimento.

Posted in Business Intelligence, Datos Publicos, Microstrategy | 3 Comments »

14.11.1. Modelo de Datos y Procesos de Carga del DW de datos públicos de Londres.

Posted by Roberto Espinosa en 24 marzo 2010


Durante estos días hemos estado analizando los diferentes ficheros de datos que proporciona la autoridad de Londres para preparar su «normalización» y procesamiento y definir también el modelo de datos del DW que vamos a construir. Tal y como nos recordaba la gente de BI Fácil, nos hemos encontrado con que la información estaba en unos «estándares muy poco estándares». Cada fichero esta construido de una manera y no siguen una linea para construir de la misma forma los ficheros de datos. Eso nos ha complicado un poco el procesamiento de la información.

Para que entendamos mejor el ejemplo, anotar que los datos con los que hemos trabajado corresponden a la región de Londres (Greater London o Gran Londres), que incluye la Ciudad de Londres y Westminster, asi como otros 31 distritos. Es una de las nueve regiones de Inglaterra.Desde el año 2000, la región está administrada por la Autoridad del Gran Londres y tiene un alcalde controlado por la Asamblea de Londres. El estatus del Gran Londres es algo inusual. Es la única región de Inglaterra con un amplio poder, una asamblea regional electa y un alto cargo elegido también por elección directa.

Mapa de la Región de Londres

De todos los datos obtenidos de la web de la autoridad del Gran Londres, hemos procesado cada fichero utilizando Talend e integrado los datos en una tabla intermedia normalizada (sería el Datastage de nuestros procesos ETL). Desde esta tabla llenaremos posteriormente el DW.

Tabla Intermedia para Normalizar las estadísticas

Todas las estadísticas esta referidas a un area o distrito de Londres (el area_id) y corresponden a un año en particular. Ademas, hemos seguido una nomenclatura al nombrar las estadísticas y las variables, siendo la primera letra de sus nombres de la siguiente manera:

Nomenclatura
Estadistica Variable
V Viviendas N Numero
P Poblacion P Porcentaje
O Ocio
C Cultura
S Salud
E Economia
A Automoviles
T Politica

Al concluir el procesamiento de todos los ficheros de datos, en esta tabla dispondremos de todos los datos de estadisticas que nos permitiran el llenado el DW con los datos definitivos y completos. Los datos de resultados de elecciones los hemos procesado e incorporado en una tabla diferente, pues no siguen el patrón del resto de estadísticas. Despues de realizar el procesado de alguno de los ficheros, disponemos de mas de 200 variables de análisis, que podeis consultar en el siguiente documento. Tenemos una información amplia de multiples variables que nos van a permitir analizar muchas cosas. Son las siguientes:

El modelo de datos conceptual para nuestro DW va a ser muy sencillo, pues basicamente esta compuesto de unas pocos atributos ( Año, Area ) y multiples hechos ( las variables de cada una de las estadísticas). Hemos creado dos dimensiones de análisis (Dimensión Tiempo: con los datos de año, decada y siglo y Dimensión Geografica, con los datos de las areas o distritos de londres y su correspondiente zona (circunscripciones)).  Para facilitar el manejo del modelo, separamos los hechos (cada una de las variables de las estadisticas) agrupandolos por el tipo de estadística. Creamos para ellos 8 tablas de hechos, una para cada tipo de estadística.

El correspondiente modelo físico de nuestro DW sería el siguiente:

Esquema Fisico DW Londres

Los procesos de carga, como hemos indicado, han procesado en primer lugar cada uno de los ficheros de estadísticas, normalizando los resultados e insertandolos en la tabla intermedia que hemos descrito anteriormente (tabla ds_estadisticas). Una vez procesados todos los ficheros,  hemos desarrollado los procesos finales en Talend que a partir de estos datos normalizados, han llenado y consolidado todos los datos de las estadísticas.

Talend - Procesamiento de tabla intermedia Estadisticas

Por si os interesa, os dejo el link al zip con la documentación generada de alguno de los procesos en Talend ( Procesos finales de llenado del DW, Tratamiento de ficheros de elecciones, Lectura de datos del censo correspondientes a grupos etnicos y Procesamiento estadistica de vehículos abandonados). Igualmente, podeís consultar online la documentación en los siguientes links:

Ahora vamos a explotar toda esta completa información en una seríe de ejemplos utilizando Microstrategy para que veamos las posibilidades que nos ofrece el Business Intelligence con datos públicos.

Para terminar, vamos a hacer un poco de turismo. Os dejo una bonita presentación de fotos de la Ciudad de Londres.

Posted in Business Intelligence, Datos Publicos | Leave a Comment »

14.11. Ejemplo de BI con Datos Públicos.

Posted by Roberto Espinosa en 9 marzo 2010


Al hilo de una interesante serie de artículos publicados en todobi.com (Business Intelligence con datos públicos, Obama usa los Dashboards y Datos Publicos para hacer demos), donde se habla de los datos públicos que ponen a disposición de todos diferentes organismos y como se utilizan estos por diferentes portales. Por ejemplo, Google utiliza los datos de la oficina de estadistica del equivalente al ministerio de trabajo de EEUU para mostrar estadísticas de desempleo en su Web.  Otro ejemplo lo tenemos en la web del Banco Mundial, del cual hemos recogido un interesante ejemplo en la imagen siguiente (comparativa entre la esperanza de vida y la renta per capita por paises, en series anuales).

Web del Banco Mundial

Estos datos pueden ser interesantes para realizar demos de sistemas de business intelligence, para integrarlos con información gráfica o geográfica y ser un buen punto de partida para construir un prototipo y vender un producto (muy especialmente en el ámbito de las administraciones públicas). Incluso, estos datos podrían utilizarse para ver los resultados de determinadas políticas públicas o como elemento de toma de decisiones del lugar geográfico o ámbito social donde se deben de aplicar estas políticas. Igualmente, a nivel privado se podrían utilizar para complementar estudios de mercado (en decisiones como la ubicación de un supermercado, un centro de ocio o similares), para campañas de publicidad especificas o buzoneo, etc.

A nivel de la Comunidad Europea, el organismo Eurostat proporciona abudante información estadística en su portal. Incluso nos permite la descarga de los ficheros accediendo a sus directorios de datos (en lo que llaman Bulk Download) con actualizaciones continuas e información del diccionario de datos de cada estadística. Tambien dispone de un amplio abanico de informes estadísticos online que se pueden consultar en forma de tablas, gráficos o mapas y desde los cuales también se pueden descargar los datos en formato Xls, Html, Xml o Tsv.

Graficos Online en la web de Eurostat

A nivel de España, disponemos de un amplio repertorio de resultados de encuestas y estudios en la web del Instituto Nacional de Estadistica y en el Centro de Investigaciones Sociológicas (CIS). A nivel económico, el Banco de España también ofrece abundante información en su web, asi como la Oficina del Catastro para las viviendas, el Ministerio de Fomento sobre la construcción y el sector del transporte o el Ministerio de Trabajo y Asuntos Sociales. En las comunidades autonomas también hay accesibles datos (pues la mayoría de comunidades tienen su propio instituto), como es el caso el Portal Estadistico de la Generalitat Valenciana, el Instituto de Estadística de Cataluña, el Instituto de Estadística de la Junta de Andalucía, el Instituto de Estadística de la Comunidad de Madrid o del mismo Ayuntamiento de Madrid, Barcelona, Sevilla o Valencia. No en todos los sitios la información esta disponible para la descarga o el metodo de descarga es incomodo para poder procesar los datos de una forma automática (información repartida en hojas excel con diferentes pestañas o similares). Se echa de menos la utilización de un estandar para acceder a los datos disponibles de forma que se facilite su procesamiento.

Web del Ine - Consulta de Datos del Padron de 2009 de Alicante

Como hemos indicado anteriormente, en la Web del Instituto Nacional de Estadística, que vemos en la imagen, hay una extensa información en el ambito nacional (Censo de Población, que se realiza cada 10 años y recoge una amplia recopilación de información de personas, estructura de hogares, edificios, etc.; Padrones municipales, que se actualizan todos los años por parte de los ayuntamientos; Encuesta de Población Activa, Indices de Precios al Consumo, Información de empresas y de administraciones públicas, Encuestas de ocupación hotelera, Estadísticas de Turismo y Establecimientos, etc, etc  ). Dispone de herramientas online para ir seleccionando el tipo de información a visualizar, permitiendo finalmente la descarga de información en formato csv, excel o pc-axis.  Este ultimo es un formato propio del Ine que se puede visualizar a través de una aplicación gratuita que también nos podemos descargar en su web.

Nuestro estudio lo vamos a realizar con datos de la ciudad de Londres (donde hay gran cantidad de datos disponibles en la web http://data.london.gov.uk/datasets, todos ellos en formato descargable, bien en csv, excel o xml). El procesamiento de los ficheros lo realizaremos con Talend y definiremos un miniproyecto en Microstrategy para explotar los datos.

La información que vamos a descargar de la Web para definir nuestro modelo de analisis público será la siguiente:

  • Vehiculos abandonados: información anual de vehiculos abandonados por area en el periodo 2000-2008  (link aquí).
  • Mortalidad relacionada con el alcohol (link aquí) y tratamientos de drogas (link aquí). Mortalidad relacionada con el tabaco (link aquí).
  • Nacimientos y ratios de fertilidad (link aquí).
  • Ratios de mortalidad (link aquí) y de suicidios (link aquí).
  • Emisiones de dioxido de carbono (link aquí).
  • Información del censo de población de 2001: población, estructura de edad, vivienda, estado civil, pais de nacimiento, grupos etnicos, religión, salud, actividad economica, ocupacion qualificaciones, vehiculos, composición de hogares, enfermos crónicos, etc.
  • Información de impuestos (link aquí).
  • Información de viviendas vacias (link aquí).
  • Información histórica del censo (link aquí).
  • Resultados de elecciones:
  • Admisiones hospitalarias (link aquí).
  • Viviendas: construccion (link aquí), venta (link aquí), media precio de las casas (link aquí).
  • Reciclado de basuras (link aquí).
  • Ratios de aborto legal (link aquí) y de embarazos de menores (link aquí).
  • Vehiculos por número (link aquí) y por tipo (link aquí).
  • Espectativa de vida al nacimiento (link aquí).
  • Uso de bibliotecas y museos (link aquí).
  • Estimación de gasto de turistas (link aquí) y viajes previstos (link aquí).

Como veis, tenemos un amplio conjunto de información disponible para analizar temas muy interesantes, en todos los ambitos de lo publico. Desde analizar, a partir de los datos del censo, los grupos etnicos y religiosos por zonas, y como eso influye en otros aspectos (consumo de drogas, natalidad, etc). Nivel economico de las zonas según el pago de impuestos, los vehiculos o el uso de bibliotecas y museos. Como podeis ver, todo un abanico de posibilidades de análisis de la información.

Proyecto OpenStreet - Mapa de Londres

Como consideración aparte, hemos visto que la ciudad de Londres participa en OpenStreet, que es un proyecto global de colaboración, que ofrece mapas y datos geograficos en el ambito de licencia Open, con el objeto de su uso libre y su reutilización. Tenemos ejemplos de como utilizar los mapas via Apis o a través de código Java.

En la siguiente entrada del Blog mostraremos el modelo de datos para la carga de la información estadística y el diseño de procesos en Talend para cargar el DW. Posteriormente, mostraremos como vemos la información utilizando informes y documentos de Microstrategy.

Posted in Business Intelligence, Datos Publicos | 9 Comments »