lunes, 7 de septiembre de 2009

Simulaciones eliminatoria mundialista

La eliminatoria para el Mundial de Sudáfrica 2010 se encuentra en su fase definitiva con 3 partidos restantes por jugar. Así que contruí un modelo para calcular las probabilidades de clasificación en la Concacaf.

Las posiciones actualizadas después de los partidos del sábado son las siguientes:

1. Honduras, 13 pts.
2. EUA, 13 pts.
3. México, 12 pts.
4. Costa Rica, 12 pts.
5. El Salvador, 5 pts.
6. Trinidad y Tobago, 5 pts.

Cada equipo tiene 3 partidos restantes. El modelo simula el marcador de cada uno de los 9 partidos que faltan por jugarse. Los goles que cada equipo anotarán son desconocidos y pueden ser modelados a través de una variable aleatoria. En este modelo, se supone que el número de goles que cada equipo anotará se distribuye Poisson (lambda). La distribución Poisson es discreta (0, 1, 2, ...) y tiene un sólo parámetro que representa la media y la varianza. Así, por ejemplo, si lambda = 1.5 ==> ese equipo espera anotar 1.5 goles. Evidentemente un equipo no puede meter 1.5 goles en un partido, o mete 1 o mete 2, sin embargo, el parámetro representa la media.

Por ejemplo, analicemos a México.

México ha anotado 2 goles en cada partido de local, por lo tanto su parámetro lambda para goles anotados de local = 2.
Pero de visitante, México ha anotado 0 goles contra EUA, 1 contra Honduras, 1 contra El Salvador y 3 contra Costa Rica, en total 5 goles en 4 partidos, para un promedio de 1.25 (5/4) goles por partido de visitante.

Así se construye la siguiente tabla de goles anotados y recibidos por partido de local y visitante:

País GFL GCL GFV GCV
Costa Rica 1.50 1.25 1.00 2.67
EUA 2.25 0.50 1.33 2.33
Honduras 3.00 0.50 0.67 1.67
México 2.00 0.67 1.25 1.75
El Salvador 2.00 1.67 0.25 1.25
Trinidad & T 1.33 1.33 1.00 2.75

Los parámetros se combinan linealmente, dependiendo del partido correspondiente.

Por ejemplo, México jugará el miércoles próximo contra El Salvador de local, por lo cual para el número de goles que anotará México, combinamos el parámetro de Goles a Favor de Local (GFL) de México (2) con el parámetro de Goles En Contra de Visitante (GCV) de El Salvador (1.25), arrojando entonces un parámetro de Goles Esperados que México anotará en ese partido de 1.63 ((2+1.25)/2).

Para el número de goles que El Salvador anotará, combinamos ahora el parámetro de Goles a Favor de Visitante (GFV) de El Salvador (0.25) con el parámetro de Goles en Contra de Local (GCL) de México (0.67), arrojando un parámetro de Goles Esperados que El Salvador anotará en ese partido de 0.46 ((0.67+0.25)/2).

Se simularon 10,000 diferentes iteraciones de cada marcador para los 9 partidos restantes, y se contaron los puntos y diferencia de goles totales de cada equipo. La siguiente tabla muestra las ocasiones que cada equipo terminó en cada lugar del ranking:

Lugar 1 2 3 4 5 6
1. México 4,046 2,935 2,137 820 61 1
2. Honduras 3,310 2,891 2,592 1,174 33 0
3. EUA 2,321 3,040 2,993 1,587 59 0
4. Costa Rica 485 1,187 2,032 5,665 534 97
5. El Salvador 0 0 57 287 5,908 3,748
6. Trinidad & T. 0 1 47 408 3,428 6,116

Con lo cual se puede calcular las probabilidades de cada equipo. Quedar en primero, segundo o tercer lugar implica calificar directo, mientras que quedar en quinto o sexto implica quedar eliminado. La siguiente gráfica muestra las 3 probabilidades de cada país (pasar directo, ir al repechaje y quedar eliminado).

miércoles, 26 de agosto de 2009

Desinformación con respecto a Marte

En días recientes ha estado circulando un correo electrónico, uno de esos famosos "forwards" que la gente reenvía sin siquiera cerciorarse de que lo que está mandando tiene una pizca de verdad.

En este correo se dicen dos mentiras que son fácilmente comprobables:

1. La primera, cito textual: "A simple vista, Marte se verá del tamaño de la Luna!"

Esto es falso. Cualquier persona que haya terminado la secundaria sería capaz de darse cuenta de su falsedad simplemente al haber visto un mapa del Sistema Solar y ver lo lejano que está Marte con respecto a la Luna, nuestro satélite natural.

2. La fecha, aparece como "27 de Agosto de 200x". Léase "x" como una variable que se modifica de acuerdo al año en el que nos encontremos. La cercanía extraordinaria entre Marte y la Tierra efectivamente ocurrió el 27 de Agosto, pero del año 2003, sin embargo, año tras año (a mí me llegó nuevamente en el año 2006) sigue circulando el mismo correo falso donde algún ocioso simplemente modifica el año y lo vuelve a circular. Me permito anexar unos mapas celestes proporcionados por la Sociedad Astronómica del Planetario Alfa (SAPA en Monterrey) donde claramente se comprueba la falsedad del hecho.

Este fenómeno de desinformación o manipulación de la información me remite a un hecho que ocurrió hace 3 años en México a través del mismo medio de "información": internet. Hace 3 años circulaban por los correos electrónicos de muchos mexicanos cualquier cantidad de disparates de similar magnitud a los aquí evidenciados. Solamente que en aquella ocasión la vorágine de desinformación se daba de manera diaria y a un ritmo que hacía, casi imposible, el desmentir toda la sarta de mentiras que se decían en ellos.


=







Evidentemente es un medio de comunicación muy efectivo, por que en aquella ocasión ayudó a que mucha gente cambiara su decisión de voto. Pero más allá de lo que ocurrió hace 3 años, me parece aún más sorprendente que hoy en día aquellos mexicanos que no tienen ni una pizca de escepticismo por comprobar que lo que se dice en un correo pueda ser verdad o no, tienen sembrada la idea en su cabeza de que mucho de lo que se dijo en aquel entonces es verdad, o mejor dicho, todo aquello que me conviene o que no me incomoda de lo que se dijo, lo asumo como verdad.

Si para algo lúdico como lo es la astronomía, o el fenómeno de que Marte se encuentre cerca de la Tierra, que, a final de cuentas tiene poca relevancia para la gente en su día a día, apreciamos este fenómeno de desinformación que, además se repite ociosamente año tras año, sin que la gente parezca recordar que ese mismo correo ya le llegó hace un año, y hace dos, y hace tres; me doy cuenta ahora el papel que juegan los medios (todos en su conjunto, incluído hoy el internet y los correos electrónicos) manipulando y desinformando en temas de mayor trascendencia y en donde existe un claro interés manipulador.

Lo importante para los medios, entonces, es la percepeción y no la realidad. Lo que importa nunca ha sido decir la verdad, sino arraigar una idea en la mente de la gente de forma tal que supere el poder de la verdad. Hoy mismo Eduardo Salazar, un reportero en Televisa, mencionó al aire en un noticiero de televisión el disparate de que "Marte se vería el 27 de Agosto del tamaño de la Luna".

Este mismo "post" de mi blog podría tratarse de desinformación y manipulación, pero mucha gente al leerlo asumirá que lo que aquí digo es cierto, por que está en "internet". Ojalá alguien se de a la tarea de investigar la veracidad de lo que aquí digo. Solo pretendo "sembrar la idea" del escepticismo.

viernes, 24 de abril de 2009

Ichiro 200 hits, probabilistic model

Intro: Ichiro Suzuki, the Mariners' Right Fielder has played 8 seasons in the MLB (2001-2008), and in all of those seasons he has hit more than 200 hits, a feat no other player has done before. But this year (2009) he missed 8 games early in the season, which puts in jeopardy him acheiving the goal again. That's why I built a probabilistic model of the phenomenon that Ichiro accumulates 200 hits or more during 2009.

The model: For each of the remaining games (Remaining Games = 162 - IchiroGames(8) - 8), which right now (April 24) stands at 146, I simulate the number of possible at bats Ichiro might have. For this I'm using a discrete distribution based upon last year's distribution of at bats per game, which is the following:




Where 4 AB per game is the most frequent, but it allows for different number of AB per game (from 2 to 6). As a second step, I simulate the number of hits he might have on each game. For this I use a binomial distribution. The binomial distribution counts the number of "success events" out of n trials. In this case, a hit is a successful event while an at-bat is a trial. The binomial distribution has 2 parameters which are n=number of trials, and p=probability of a successful event. n is random and comes from the step before (the discrete distribution) but p is fixed. I will update this model frequently with 2 options for p. The first scenario for p will be to use his actual 2009 batting average as an estimate of p. The second approach will be to use his career batting average.

Then I will run 5,000 iterations (like if I had 5,000 different "whole seasons") in which for each one of those I will have a different and random amount of total hits. We can estimate the probability of him reaching 200 hits, simply by counting on how many of the iterations he actually exceeded 200 hits. Simple, right?

Results: This is a histogram of the iterations, on red you'll see the "career" model, which uses a parameter for p=.330, i.e. his career batting averge. The purple histogram is the "actual" model, which uses a parameter for p=.303, his actual batting average (2009).



You'll notice that under the "current" model, his probability of reaching at least 200 hits = 43% (the right hand tail), you can't see the right tail for the red distribution, but the probability for the "career" model = 89%. The histogram also shows the high variability in the total hits, under both models, due to the fact that the season is very young (from 185 to 260 in the RED model). But the expected number of hits for the purple model = 198 hits (just below 200), and for the red model = 215.

So now you know your odds if you want to bet for it. Will you bet on it?

Update: The following chart shows how the probability has changed in time for both models. As of June 10, it's practically a certainty that Ichiro will reach at least 200 hits. The expected total hits for the current model is 238.

sábado, 4 de abril de 2009

World Baseball Classic, 2009

El pasado jueves 12 de marzo, mi cuñado Guillermo Saavedra y yo fuimos a ver el partido México - Cuba en el Foro Sol (y lluvia) del Defectuoso. México fue nockeado por Cuba, pero lo interesante fue que conseguí una pelota que salió de foul y quedé grabado en video por la cámara de televisión, y aquí está la evidencia, tanto en video como fotos de la pelota.


jueves, 2 de abril de 2009

2009 MLB projections

This is a projection of the 2009 MLB season based upon the following assumptions:

1. 2,000 iterations of a whole season based upon the actual 2009 schedule.

2. Visting team runs scored and Home team runs scored are simulated for each and every one of the 2,430 games (this would be one iteration).
3. Negative Binomial distribution of both home runs scored and visitor runs scored for every game.

4. If the score ends up tied (visiting team runs = home team runs) then I give the win to the home team.

5. The whole deal comes up with the parameters for the NegBin distribution, this time I'm using 6 different models, based upong 6 different projection methods: Cairo, Chone, Hbt, Marcel, Pecota and Zips.

6. Follow this site to the simulations on Diamond Mind Baseball under each system: http://rlyw.blogspot.com/2009/04/2009-diamond-mind-projection-blowout.html. Based upon the Runs Scored and Allowed per team for each system there, I built the parameters of the Negative Binomial distribution of each team under each game as a combination of the Team Runs Scored per game, and the Opposite Team Runs Allowed per game.

American League

East Division
Clearly a 3-team division, as all systems project a tight race among the Rays, the Red Sox and the Yankees. Most of them give the highest probability to the Yankees though, as only Chone gives more probability to the Red Sox.

Central Division
More variety here, both unanimously the Indians seem to have the highest odds of winning it. The Tigers come second with the Twins not very far away.

West Division

Again, unanimously the Angels have the highest odds, but the A's don't seem so far behind, especially under the Hbt and Marcel systems. The M's come second only under the Chone system.

National League
East Division

Seems like another 3-team race, with the Braves, Mets and Phillies ending up with similar chances of winning it, although we see the biggest difference among systems here. Zips, Pecota and Hbt project higher probability for the Mets, while Marcel and Cairo for the Braves and Chone gives the highest odds to the Phillies.

Central Division
Another unanimous winner, the Cubs have the highest odds under all systems. Pecota even gives them a 55% of winning it (would you bet on it?). The Cardinals are the only team to pose a threat to beat the Cubs.

West Division

The Dodgers unanimously win this one, especially under Marcel, the D-Backs seem to be the only threat to them. Giants, Rockies and Padres with very similar chances of winning it under all systems.

martes, 31 de marzo de 2009

Teatro

Los pasados días del 25 al 28 de marzo participé en mi más reciente obra de teatro, llamada "El Hombre de la Mancha", en la cual sólo participe como músico, con el grupo de Teatro de Padres de Familia de la Escuela Kennedy de Querétaro. Con ésta ya son 9 las diferentes obras de teatro en las que he participado hasta el momento las cuales ennumero a continuación por orden cronológico:

1. Yo y Mi Chica, 1990; musical presentado en el teatro María Teresa Montoya en la ciudad de México, cuando estudiaba el quinto año de prepa (EMA). El papel que hice fue el de "Memo", el protagónico donde cantamos en vivo por lo cual nos ganamos un premio.



2. Crimen por Muerte, 1991; drama de sátira presentada también en el teatro María Teresa Montoya en mi sexto año de prepa en la EMA, en 1991. La obra fue escrita por Neil Simon para cine (1976) pero adaptada para teatro por Alejandro González Correa. Yo hice el papel de Sam Diamond, uno de los detectives engañados por Lionel Twain.


3. De la Calle, 1995; drama de Jesús González Dávila que trata sobre niños de la calle vulnerables a las adicciones. Fue presentada en el auditorio del ITAM como parte de mi servicio social con MUPAAC, en la cual hice el papel protagónico de Rufino.


4. El Fabricante de Deudas, 1995; comedia de enredos presentada en el auditorio del ITAM por el grupo de teatro del mismo durante mi último año de la carrera, en la cual al principio sólo apoyé como cantante en vivo, pero después hice un papel menor en funciones extra que presentamos. En esta obra conocí al amor de mi vida, mi esposa y madre de mis hijos: Verónica Saavedra.


5. Los Caciques, 1995; comedia de enredos presentada en el auditorio del ITAM por el grupo de teatro del instituto, durante mi último semestre de la carrera, ahora sí participando como actor, e incluso cantando una canción con guitarra en vivo. Hice el papel del yerno del cacique. Hicimos una función extra en el Colegio Militar del sur de la ciudad de México.


6. Penélope, 1996; obra autobiográfica escrita por la pintora inglesa Leonora Carrington que presentamos profesionalmente en la Casa de Lago de Chapultepec. Fue montada por el Taller de Investigación Teatral (TIT) de Nicolás Núñez de la UNAM. Después la llevamos a presentar a España en una gira por Galicia con funciones en Pontevedra, Santiago de Compostela y Lugo. Hice el papel de Demetrio, hermano mayor de Penélope. Nuevamente tuve participación musical en esta obra al tocar el piano en Chapultepec y el instrumento que hubiera disponible en España.




7. El Gesticulador, 1997; obra de Rodolfo Usigli basada en hechos históricos de la Revolución Mexicana de principios del siglo XX. Presentada por el taller de teatro del ITAM en el auditorio del mismo. En esta ocasión sólo apoyé con algunos aspectos musicales, sin ser la obra de carácter musical.


8. Galileo Galilei, 1997; obra biográfica del astrónomo italiano escrita por Bertolt Brecht, adaptada por Ricardo García Artega, presentada por el grupo de teatro del ITAM en el auditorio del mismo. Para esta obra compuse la música que tocamos en vivo así como organicé que los actores cantaran en vivo. Además de la música hice el papel del Cardenal Barberini amigo de Galilei, que después llegó a ser el Papa Urbano VIII, quien lo obligó a retractarse de sus teorías. Dimos nuevamente una función extra en el Colegio Militar.



9. El Hombre de la Mancha, 2009; musical basado en el Quijote de la Mancha de Cervantes, presentado en la escuela John F. Kennedy, en Querétaro, por el grupo de teatro de padres de familia. En esta ocasión mi participación se limitó a montar 11 de las 15 canciones de que consta la obra así como tocarlas y cantarlas en vivo.


En esta más reciente experiencia, después de 12 años de no hacer teatro, tuvimos una muy grata visita de parte del mejor actor que tiene México, tanto histriónicamente hablando como en cuánto a su persona: Héctor Bonilla, quién fue a develar la placa de 5 años del grupo. Héctor, y me permito llamarlo así por que se portó muy amable con nosotros, nos regaló unas palabras maravillosas, ligando tanto el alto contenido idealista de la obra que presentamos y del libro en el que está basada, con la situación tan difícil del país y del mundo, así como con lo "romántico", como lo llamó él al hecho de que unos padres de familia se junten tras sus trabajos a ensayar y montar una obra de teatro tan significativa. Palabras muy bien articuladas que me motivaron a escribir esta reseña de mi vida en el teatro.
Por último, también he participado en dos cortometrajes como actor, uno de ellos: Esperando a Godot, de Samuel Beckett, dirigida por Alejandro González Correa. He aquí el programa:

martes, 20 de enero de 2009

Cross year correlations

There are several stats used in baseball. Some of them are strong in predicting the future performances of the players. Some other aren't. One way of measuring that strength is using cross-year correlations of the desired variables. The following is an analysis of which stats have strong cross-year correlations.

Methodology. For pitchers I merged the data on all starters who pitched more than 50 Innings in both 2007 and 2008, a total of 115 different pitchers were retained. The same was done for position players, where 337 different players were retained that had at least 100 AB both in 2007 and 2008. It's worth noting that Spearman Correlations were used, instead of the classic Pearson Correlations, this is due to the fact that the variables used are not normal distributed, hence a non-parametric approach makes more sense.

The charts below show the Spearman Correlation of all variables analysed in descending order.

Position players (batters):


Starting pitchers:

viernes, 9 de enero de 2009

Baseball defensive metrics analysis

Introduction: Different skills on baseball players can be measured in different ways. Hitting skills can be measured via AVG, OBP, SLG or OPS, even lately some new stats have been arising like BABIP, LD%, et. al. Pitching skills have regularly been measured via ERA, W-L%, K%, etc. but lately new stats like FIP, xFIP, do better jobs that the old ones. But for fielding (defense) stats haven't been so succesful to measure fielding skills.

So here I want to do a correlation analysis on some fielding stats to see how well they predict the outcome of future performances. The stats I used were: Fielding Percentage, Range Factor in 2 versions (per game, and per 9 Inn), and UZR in its normal version and the per 150 games version.

I used the data from a site called fangraphs
http://www.fangraphs.com/ on a player by player basis, from 2007 and 2008. I merged both data sets by player-position, so that each player that played the same position in 2007 and 2008 has those variables as columns in the same observation (player-position). I then filtered out those players that didn't play for at least 90 innings in that certain position.

The Correlation results follow:



What this means is that Range Factor is best at predicting future performances, but a deeper analysis by position follows too.