Proyecto Visualizar de Medialab Prado

November 14th, 2007

Al parecer el asunto de la visualización de datos está empezando a tomar fuerza en nuestro entorno más inmediato. Medialab Prado es un…

programa del Área de Las Artes del Ayuntamiento de Madrid que tiene su origen en el Medialab creado en el Centro Cultural Conde Duque en el año 2002. Está orientado a la producción, la investigación y la difusión de la cultura digital y del ámbito de confluencia entre arte, ciencia y tecnología.

Uno de los proyectos incluidos dentro de este programa es el llamado proyecto Visualizar que se concibe como…

un proceso de investigación abierto y participativo en torno a la teoría, las herramientas y las estrategias de visualización de información. El 23 de noviembre se celebrará el Seminario de visualización de datos aplicada a la comunicación.

El coeficiente de correlación es un coseno

November 12th, 2007

Es la interpretación que del archiconocido coeficiente de correlación de Pearson se da en este documento.

En efecto, si tomamos dos variables en un conjunto de n individuos y las centramos -es decir, restamos a cada uno de los valores la media aritmética de la correspondiente variable- obtenemos dos variables de media nula que podemos interpretar como dos vectores n-dimensionales. Si calculamos el producto escalar de estos dos vectores obtendremos un escalar igual al producto del módulo de ambos vectores por el coseno del ángulo que forman entre ellos. Despejando el coseno nos queda que éste es igual al producto escalar entre los dos vectores dividido por el producto de sus módulos.

En resumen, podemos entender el coeficiente de correlación entre dos variables como el coseno del ángulo que forman dichas variables una vez han sido centradas. Un coseno muy próximo a +1 indicará que el ángulo entre las variables centradas es muy pequeño -muy próximo a cero- con lo que las variables centradas estarán muy próximas en el espacio. Un coseno muy próximo a -1 indicará que el ángulo entre las variables centradas es muy cercano a pi radianes, con lo que las variables centradas tienen sentidos contrapuestos. Un coseno de cero indica que el ángulo formado entre las dos variables centradas es un ángulo recto: en ese caso decimos que las variables centradas son ortogonales.

Cita

November 8th, 2007

Any poet, even the most allergic to mathematics, has to count up to twelve in order to compose an alexandrine.

Raymond Queneau (1903-1976)

Leído en The Number Sense: How the mind creates mathematics.

Gráficos dinámicos para presentar indicadores estadísticos

November 3rd, 2007

El Instituto Nacional de Estadística Italiano y la OCDE organizaron el pasado marzo un seminario de título Dynamic graphics for presenting statistical indicators cuyo objetivo era “…conseguir que los indicadores estadísticos fueran comprensibles y atractivos para el público actual”. Se pretendía “…identificar buenas prácticas y formular recomendaciones que permitan a las organizaciones avanzar en este importante campo”.

Measuring and fostering the progress of societies

November 3rd, 2007

El pasado mes de junio se celebró en Estambul el Second OECD World Forum on Statistics, Knowledge and Policy con el tema Measuring and fostering the progress of societies. Esta es la agenda (contiene enlaces a los papers y a las presentaciones).

Uno de los resultados más importantes del forum fue la llamada declaración de Estambul, por la que los firmantes -OCDE, Comisión Europea, Organización de la Conferencia Islámica, ONU, Programa de las Naciones Unidas para el Desarrollo y el Banco Mundial- se comprometen a:

medir e impulsar el desarrollo de las sociedades en todas sus dimensiones con el fin último de mejorar las decisiones políticas, la democracia y el bienestar de los ciudadanos

Y todo esto ¿sirve para algo?

October 31st, 2007

Esta es una de las preguntas más habituales de mis estudiantes -de métodos cuantitativos- cuando he alcanzado con ellos la confianza suficiente. Y lo peor de todo es que no les falta razón a juzgar por la opinión vertida en este post escrito a modo de reflexión ante la reciente publicación del libro de Ian Ayres de título Super Crunchers.

Me ha parecido especialmente interesante el siguiente comentario:

The nature of the analysis is such that neither side can convince the other that “their” analysis is reliable. That’s not always true. As I suggest in the podcast, Milton Friedman was able to convince the skeptics that inflation is everywhere and always a monetary phenomenon. Friedman won the debate. But how many other studies can you think of where someone staked out a controversial position and convinced the skeptics based on empirical analysis? I think it can be done, but it’s rare. And in today’s world, most of the interesting empirical claims are being made in cases where the data are too incomplete and the issue is so complex that we can’t move to a consensus. The empirical work doesn’t improve our understanding of what’s going on. It masks what’s going on. It gives a patina of science when in effect the numbers aren’t really informing the debate.

Dar sentido a los datos

October 24th, 2007

Es lo que persigue esta publicación de la United Nations Economic Comission for Europe. Según dicen sus responsables:

La guía se concibe como una herramienta práctica para ayudar a los directivos, a los estadísticos y a los responsables de la relación con los medios de comunicación a usar tablas, gráficos y otra información con el objetivo de dar vida a los datos.

Contiene sugerencias, líneas maestras y ejemplos acerca de cómo usar técnicas eficaces de escritura para dotar de significado a los datos.

Selección de variables explicativas en la regresión

October 23rd, 2007

Uno de las cuestiones más importantes a la hora de encontrar el modelo de ajuste más adecuado para explicar la variabilidad de una característica cuantitativa es la correcta especificación del llamado modelo teórico. En otras palabras, debemos seleccionar de entre todas las variables candidatas a ser explicativas de la variable dependiente un subconjunto que resulte suficientemente explicativo -lo que podemos medir, por ejemplo, mediante el coeficiente de determinación- y también no demasiado complejo -es decir, con muchas variables explicativas-.

En la práctica, no obstante, la selección del subconjunto de variables explicativas de los modelos de regresión se deja en manos de procedimientos más o menos automáticos. Los procedimientos más usuales son los siguientes:

  • Método backward: se comienza por considerar incluidas en el modelo teórico a todas las variables disponibles y se van eliminando del modelo de una en una según su capacidad explicativa. En concreto, la primera variable que se elimina es aquella que presenta un menor coeficiente de correlación parcial con la variable dependiente-o lo que es equivalente, un menor valor del estadístico t- y así sucesivamente hasta llegar a una situación en la que la eliminación de una variable más suponga un descenso demasiado acusado en el coeficiente de determinación.
  • Método forward: se comienza por un modelo que no contiene ninguna variable explicativa y se añade como primera de ellas a la que presente un mayor coeficiente de correlación -en valor absoluto- con la variable dependiente. En los pasos sucesivos se va incorporando al modelo aquella variable que presenta un mayor coeficiente de correlación parcial con la variable dependiente dadas las independientes ya incluidas en el modelo. El procedimiento se detiene cuando el incremento en el coeficiente de determinación debido a la inclusión de una nueva variable explicativa en el modelo ya no es importante.
  • Método stepwise: es uno de los más empleados y consiste en una combinación de los dos anteriores. En el primer paso se procede como en el método forward pero a diferencia de éste en el que cuando una variable entra en el modelo ya no vuelve a salir, en el procedimiento stepwise es posible que la inclusión de una nueva variable haga que otra que ya estaba en el modelo resulte redundante y sea “expulsada” de él.

El modelo de ajuste al que se llega partiendo del mismo conjunto de variables explicativas es distinto según cuál sea el método de selección de variables elegido. La consecuencia de este hecho resulta obvia: ninguno de los llamados métodos automáticos garantiza encontrar el modelo óptimo -en el sentido, por ejemplo de maximizar el coeficiente de determinación o cualquier otro criterio que nos parezca relevante-.

En efecto, consideremos los siguientes datos -lógicamente ficticios y preparados para mostrar el efecto que se desea- . Se trata de un conjunto de 40 observaciones de tres variables a las que llamaremos Y (la dependiente) y X1 y X2 (las explicativas). Si sobre estos datos aplicamos un procedimiento de tipo forward o de tipo stepwise el resultado será el siguiente:

a Variable dependiente: Y

Es decir, el modelo óptimo según los procedimientos forward o stepwise es el que no contiene ninguna variable explicativa. Esto es debido a que ninguna de las dos variables -cuando son consideradas de manera independiente- supera los criterios mínimos para ser incluida en el modelo -en concreto, que su coeficiente t lleve asociada una probabilidad crítica inferior a 0,05-. En efecto, los resultados para los modelos independientes son los siguientes:

Modelo
Coeficientes no estandarizados Coeficientes estandarizados t Sig.
B Error típ. Beta
1 (Constante) 15,504 1,337
11,596 ,000
X1 ,026 ,018 ,221 1,399 ,170
a Variable dependiente: Y
Modelo
Coeficientes no estandarizados Coeficientes estandarizados t Sig.
B Error típ. Beta
1 (Constante) 16,675 1,091
15,284 ,000
X2 ,746 1,543 ,078 ,483 ,632
a Variable dependiente: Y

Si por el contrario consideramos un procedimiento backward el resultado será el siguiente:

Modelo
Coeficientes no estandarizados Coeficientes estandarizados t Sig.
B Error típ. Beta
1 (Constante) 1,300 ,317
4,097 ,000
X2 -63,555 1,230 -6,662 -51,688 ,000
X1 ,792 ,015 6,812 52,856 ,000
a Variable dependiente: Y

El coeficiente de determinación para este modelo con dos variables explicativas es 0,987 y al coeficiente F asociado le corresponde una probabilidad crítica inferior a 0,001. Adicionalmente, a los estadísticos t asociados a cada una de las dos variables explicativas les corresponden probabilidades críticas muy reducidas. Hemos encontrado, por tanto, un buen modelo lineal para explicar el comportamiento de Y a partir del comportamiento de X1 y X2. El problema radica en que si hubieramos elegido de forma acrítica utilizar un procedimiento forward o stepwise, jamás lo habríamos encontrado.

Existen otras opciones de selección de subconjuntos de variables -como por ejemplo el llamado método fuwil o de selección de todos los posibles subconjuntos-. El inconveniente de este último es la explosión combinatoria que se produce cuando el número de variables candidatas a ser explicativas crece.

Hans Rosling y gapminder

October 15th, 2007

De verdad, merece la pena dedicar 20 minutos a ver este vídeo. Como no lo podría describir mejor, copio y pego:

You’ve never seen data presented like this. With the drama and urgency of a sportscaster, Hans Rosling debunks myths about the so-called “developing world” using extraordinary animation software developed by his Gapminder Foundation. The Trendalyzer software (recently acquired by Google) turns complex global trends into lively animations, making decades of data pop. Asian countries, as colorful bubbles, float across the grid — toward better national health and wealth. Animated bell curves representing national income distribution squish and flatten. In Rosling’s hands, global trends — life expectancy, child mortality, poverty rates — become clear, intuitive and even playful.

¡Mucho que aprender!

Métodos de visualización

October 13th, 2007

En esta tabla -al estilo de la tabla periódica de los elementos químicos- se clasifican un buen número de técnicas de visualización ordenadas según persigan:

  • comunicar datos, información, conceptos o estrategias.
  • dar una perspectiva estática (estructura) o dinámica (proceso).
  • apoyar un pensamiento convergente o divergente.
  • proporcionar detalle o una visión general.

Una fuente de ideas para no aburrir empleando siempre los mismos -y en ocasiones no muy apropiados- gráficos.