Simstat: octubre 2008

jueves, 30 de octubre de 2008

Elecciones USA, parte 2

En el primer ejercicio (ver abajo) lo único que se modeló aleatorio es la proporción de indecisos que se asigna a cada candidato, es decir, se asume que los proporción de votantes de cada candidato dada por el modelo de Pollster es la correcta.

Sin embargo, sabemos que las encuestas (información en la que se basa Pollster para sus estimaciones), tienen asociado un margen de error. Para los que no saben lo que es el margen de error les comento que no quiere decir que los encuestadores se hayan equivocado, sino más bien, en términos muy simplistas, que como no ha sido encuestado el total de la población, existe incertidumbre (margen de error) por que desconocemos la opinión de los que no entraron en la muestra. Mientras mayor es el tamaño de muestra (número de entrevistados) menor es la incertidumbre (margen de error).

Así que para este segundo ejercicio también pongo como variables aleatorias la proporción de votantes para cada candidato en cada estado, es decir que ya no es un valor fijo dado por Pollster, sino aleatorio.

Por ejemplo, en Florida, Pollster actualizó la información con encuestas recientes, con los siguientes datos: proporción para Obama = 48.7%, proporción para McCain = 44.5%. En el ejercicio anterior se asumía que esos valores eran fijos, lo cual no es cierto. Vamos a darle aleatoriedad a estas estimaciones. Para eso, vamos a usar distribuciones normales para cada candidato, (bendito TLC, y no me refiero al Tratado de Libre Comercio). La media de estas distribuciones normales, por obvias razones, es la misma proporción, lo interesante está en el margen de error. Usaré como percentil 95 de la distribución normal la media más el margen de error fijo para todos los estados y ambos candidatos.

El tamaño de muestra promedio de las encuestas con las que se basa esta información es de 854 encuestas personales. Para ese tamaño de muestra el margen de error es de .03353, es decir un 3.353% de margen de error. La fórmula es la siguiente: n = Z^2*p*(1-p)/d^2. Donde n = tamaño de muestra, Z = percentil al nivel de confianza deseado de una distribución normal estándar (0,1), p = proporción estimada y d = margen de error.

Es decir que ahora la proporción de votos de cada candidato es aleatoria, y una vez que se simulan esos 2, la proporción de indecisos también se asigna aleatoriamente como en el modelo anterior. Cabe señalar que existe una correlación negativa entre las normales de cada estado, por que al subir la proporción de un candidato, necesariamente decrece la proporción del otro. Así que usaré una correlación de -0.95 para cada estado.

Resultados:

Modelo Uniforme

Modelo Beta

Modelo Elba con punto de corte 25%

Modelo Elba con punto de corte 10%

Modelo Elba con punto de corte 5%

Modelo Elba con punto de corte 0.1%

Gráfica resumen de probabilidades

Sensibilidad

Conclusiones: Como podemos ver en las gráficas, bajo los Modelos Uniforme y Beta Obama sigue ganando con total certeza. Es necesaria la mano amiga (Modelo Elba) para que McCain tenga apenas una pequeña probabilidad de ganar.

Conforme el punto de corte de la asignación total se mueve cerca del 0, lo cual significaría que los indecisos son asignados en su totalidad a McCain (llamémosle el modelo Elba Esther a su máxima potencia), el traslape entre los votos electorales de ambos candidatos se hace más grande, dándole una pequeña probabilidad a McCain de ganar. En el caso del modelo de punto de corte de 0.1%, digamos el más extremo, la probabilidad de que McCain gane llega a ascender a 20% aproximadamente.

Otro punto de interés es ver la sensibilidad de los estados, la gráfica de Sensibilidad indica cuál estado tiene mayor influencia en el resultado final. En este caso, Ohio, Florida y Pensilvania son los estados que más influyen en el resultado final. Habrá que recomendarle al equipo de Obama que canalicen recursos en esos estados para cerciorarse de que Hildebrando no esté merodeando cerca de las máquinitas de votos electrónicos. La alta sensibilidad de un estado se puede deber a que la diferencia es pequeña entre los candidatos, pero también a que el número de indecisos es grande.

martes, 28 de octubre de 2008

Elecciones USA

Simulación de elecciones en EUA.

Les elecciones en EUA están a solo una semana de ser llevadas a cabo, así que hice una simulación de los resultados posibles.

Como bien saben, en EUA no gana el que más "votos populares" acumule, sino el que más "votos electorales" acumule. El total de votos electorales disponible es de 538, repartidos entre los 51 estados que conforman los EUA, dependiendo de varios factores. Así, por ejemplo, California es el estado que más votos electorales otorga con 55, mientras que varios estados pequeños (demográficamente) otorgan 3 como mínimo (Alaska, por ejemplo).

Basados en datos de pollster.com http://pollster.com/ construí un modelo que simula la proporción de indecisos que votarán por cada candidato. Por ejemplo, según pollster, California tiene 55.4% de votantes por Obama y 37.4% por McCain, con 7.2% de indecisos. Se simulan los indecisos de cada estado con diferentes modelos:

Modelo Uniforme. Se simula una variable aleatoria uniforme (0,1), es decir, un número aleatorio entre 0 y 1, independiente para cada estado, y se asignan los indecisos al candidato correspondiente de acuerdo a la variable aleatoria. Por ejemplo, Florida, un estado muy competido, en el cual 48.1% están con Obama y 45.9% están con McCain, tiene sólo el 6% de indecisos. Si la variable aleatoria resulta ser 0.5, entonces se asignan la mitad de los indecisos a Obama y la mitad a McCain, pero si el valor aleatorio es 0.2 digamos, entonces, sólo se asignan el 20% de los indecisos a Obama y el restante (80%) a McCain.

Ejemplo de una distribución uniforme en la cual podemos apreciar que la probabilidad es la misma para cualquier punto, es decir, 50% es igual de probable que 3% por ejemplo.

Modelo Beta. Se simula una variable aleatoria Beta(a,b), independiente para cada estado, y se asignan los indecisos al candidato correspondiente de acuerdo a la proporción simulada. La distribución Beta corre entre 0 y 1. Los parámetros de la distribución Beta de cada estado dan, en promedio, la proporción actual a cada candidato. Así, por ejemplo, en Florida, la Beta tiene un promedio de 48.1% para Obama. La diferencia con respecto al modelo Uniforme es que en este caso, la asignación de indecisos está relacionada a la proporción actual de cada candidato.

Ejemplo de una distribución Beta, donde claramente vemos que los valores ceranos a 60% son mucho más probables que los valores en las colas, y que como mínimo es 0 y máximo es 1.

Modelo Elba Esther. En este modelo, gracias a una mano amiga externa, se asigna el total de los indecisos a uno de los 2 candidatos aleatoria e independientemente a cada estado, con una probabilidad dada, es decir, en este caso no hay distribución de indecisos, sino asignación total. Por ejemplo, se simula una uniforme (0,1), si ese valor aleatorio es menor al punto de corte (cutoff) determinado, entonces se asignan todos los indecisos a Obama, en caso contrario se le asignan a McCain.

Resultados. Para aquellos que todavía tienen esperanzas de que McCain gane les tengo malas noticias. Bajo ningún modelo, ni ninguna circunstancia, después de 10,000 simulaciones de cada modelo, gana McCain. Probaré otros modelos menos realistas para tratar de ver si puede ganar McCain de alguna forma. A continuación se muestran histogramas del total de votos electorales obtenidos por Obama y McCain bajo los 3 modelos.

Modelo Uniforme

Modelo Beta

Modelo Elba Esther con punto de corte de 75%

Modelo Elba Esther con punto de corte de 50%

Modelo Elba Esther con punto de corte de 5%

Conclusiones: Como podemos ver en las gráficas, en ninguno de los casos hay traslape entre los votos electorales de ambos candidatos, es decir, incluso en el caso de la intervención de la mano amiga y una asignación probabilística del 95% de indecisos a McCain el mínimo número de votos electorales que Obama obtendría serían 282, cuando le bastan 270 para ganar, es decir, asumiendo que los datos de Pollster en cuánto a preferencias electorales de cada estado son correctos, la probabilidad de que gane Obama es 100%.

Presentación

En este blog pretendo mostrar algunos de los análisis estadísticos y simulaciones que hago sobre diversos temas (elecciones, baseball, huracanes, entre otros), de ahí el nombre (SimStat). Los invito a que hagan comentarios sobre alguna entrada en particular o en general sobre el blog.

In this blog I pretend to show some of the statistical analyses and simulations I often do about several themes (elections, baseball, hurricanes, among others), that's why the name (SimStat). Please fell free to comment under any post or generally about the blog.

Simstat

jueves, 30 de octubre de 2008

Elecciones USA, parte 2

martes, 28 de octubre de 2008

Elecciones USA

Presentación

Datos personales

Archivo del blog

Mi lista de blogs

Patriots Calendar

Seguidores