Estadística bayesiana: Cuantificando la incertidumbre

Las matemáticas, esa ciencia abstracta de números, teoremas y figuras geométricas, es sin duda la piedra angular que sustenta el resto de las ciencias y tecnologías de las que hacemos uso día tras día. Como ocurre en todos los campos, se trata de una disciplina en constante evolución que también está sujeta a tendencias y cuyos avances muchas veces van de la mano del desarrollo de otras especialidades. Es el caso del estrecho vínculo entre la teoría cuántica de campos de la física, que relaciona la mecánica cuántica con los sistemas clásicos de campos (como el electromagnético), y la rama matemática de la topología, que estudia la invariancia de las figuras y espacios geométricos bajo transformaciones continuas.

Sin irse a especialidades tan complejas y lejanas para la mayoría de las personas, otra de las ramas de las matemáticas que más interés suscita por su enorme utilidad es la estadística. De hecho, es considerada a menudo como una ciencia formal con identidad propia. Y dentro de la estadística, ha resurgido con fuerza en los últimos años el campo de la estadística bayesiana, cuyos métodos se aplican actualmente en multitud de campos tan diversos como la medicina, la economía o la cosmología.

¿Pero qué es la estadística bayesiana?

La estadística bayesiana, que toma su nombre del matemático británico del siglo XVIII Thomas Bayes y su famoso teorema, intenta describir la realidad mediante grados de confianza (probabilidades bayesianas). Dicho de otra forma, dados unos datos reales, se obtienen distintas hipótesis sobre la realidad que se cuantifican con una distribución de probabilidad. Se trata, pues, de cuantificar la incertidumbre de que un suceso ocurra. A diferencia de la estadística frecuentista (la que se estudia en los colegios), la estadística bayesiana utiliza la información previa y subjetiva que se tiene sobre el suceso (obtenida, por ejemplo, a través de la experiencia). En cambio, la estadística frecuentista no hace ninguna suposición a priori ni asigna probabilidades a las hipótesis: éstas son o bien ciertas o bien falsas.

El teorema de Bayes, enunciado en 1763, expresa la probabilidad condicionada de que se produzca un suceso H (hipótesis) habiéndose dado un suceso e (evidencia) previamente. Por ejemplo, si se ha dado positivo en un test médico (evidencia e) que detecta una enfermedad rara, ¿cuál es realmente la probabilidad de que tengamos dicha enfermedad (hipótesis H)? La respuesta, aquí. Crédito de la foto: disownedlight.

El teorema de Bayes, enunciado en 1763, expresa la probabilidad condicionada de que se produzca un suceso H (hipótesis) habiéndose dado un suceso e (evidencia) previamente. Por ejemplo, si se ha dado positivo en un test médico (evidencia e) que detecta una enfermedad rara, ¿cuál es realmente la probabilidad de que tengamos dicha enfermedad (hipótesis H)? La respuesta, aquí. Foto: Disownedlight.

El concepto de probabilidad también es diferente según qué enfoque se emplee. Para la estadística frecuentista, la probabilidad se define como la frecuencia a largo plazo de un suceso si se repitiera éste en idénticas condiciones. Usando el ejemplo clásico, una probabilidad del 50% de obtener cruz al lanzar una moneda quiere decir que si se lanzase esa moneda un número muy grande de veces, aproximadamente la mitad de las veces se obtendría cruz. Para la estadística bayesiana, en cambio, una probabilidad del 50% de obtener cruz expresa el grado de confianza que tiene el observador en que esto así ocurra. O visto de otra manera, dada la información que se tiene sobre la simetría y el peso de la moneda, por ejemplo, no hay razones para pensar que vaya a caer más veces de un lado que de otro. En la estadística bayesiana, además, esta probabilidad (o grado de confianza) puede ser modificada a posteriori si se adquiere información subjetiva adicional. Veamos un ejemplo simple.

Un ejemplo televisivo para entenderlo mejor

Supongamos que en un programa de televisión el concursante debe elegir entre 3 puertas (A, B y C), sabiendo que sólo una de ellas esconde el premio. Sin embargo, después de haber elegido (digamos que la A), el presentador abre una de las puertas descartados (B) y revela que no esconde nada. Le ofrece entonces al concursante cambiar la puerta que había elegido inicialmente (A) por la que aún queda sin abrir (C). ¿Qué debería hacer el concursante? ¿Mantener su apuesta inicial por la puerta A o cambiar a la puerta C?

En un primer momento, ante las 3 puertas cerradas, la probabilidad de que el concursante elija la puerta con el premio es de 1/3 (y 2/3 de que escoja una puerta vacía). Una vez que el presentador descarta una de las 2 puertas sin premio, queda claro que de las 2 puertas cerradas (A y C) una esconde el premio y la otra no. ¿Es acaso indiferente elegir una u otra? No. La puerta C tendrá lo contrario de lo que tenga la puerta A y por lo tanto: i) si la puerta A inicialmente escogida escondía el premio (probabilidad 1/3), la puerta C no tendrá nada pero ii) si la puerta A no escondía nada (probabilidad 2/3), entonces la puerta C tendrá el premio. Conviene por lo tanto modificar la decisión inicial para aumentar las probabilidades de ganar el premio, cosa que muchos concursantes son reacios a hacer por motivos puramente emocionales. Visto así, la información subjetiva que ha introducido el presentador a posteriori es crucial para tomar la decisión y las probabilidades se ven modificadas en consecuencia. La solución a este problema, conocido como problema de Monty Hall, se puede deducir de manera más formal usando probabilidades condicionadas y el teorema de Bayes, justamente.

La inferencia bayesiana y algunos de sus usos

Aunque el concepto de estadística bayesiana no es nuevo, sí que lo es su desarrollo y aplicación. El interés por este campo resurgió en la segunda mitad del siglo XX, pero no fue hasta principios de los años 90 cuando los nuevos y potentes ordenadores permitieron hacer frente a los complejos cálculos que conlleva. La inferencia bayesiana, en la que la información recogida de una muestra se utiliza para obtener conclusiones acerca de la población total bajo forma de distribución de probabilidades, es actualmente clave en la resolución de problemas complejos de diversas disciplinas científicas y sociales. Medicina, astrofísica, psicología, o econometría son solamente algunos de los campos en los que se aplican con éxito estos métodos.

En medicina, por ejemplo, la inferencia bayesiana se utiliza para el diagnóstico automático de enfermedades desde hace varias décadas. A la hora de determinar qué dolencia afecta a un paciente, basarse únicamente en la historia clínica de ese paciente es limitar el conocimiento que se tiene. En cambio, si se utilizan sus síntomas y además una base de datos con los síntomas y diagnósticos finales de todos los pacientes similares afectados hasta la fecha, se puede realizar una valoración mucho más sólida y coherente, como explica el Dr José Miguel Bernardo, profesor de estadística de la Universidad de Valencia. La inferencia bayesiana permite obtener, de esta manera y con gran rapidez, las probabilidades de que el paciente esté afectado por una u otra enfermedad.

En astrofísica, las aplicaciones de la estadística bayesiana son múltiples y cada día más numerosas.   Como se trata de una ciencia observacional en la que no se pueden realizar experimentos para modificar los datos, se deben hacer estimaciones acerca de la realidad en base a lo que se observa y a lo que ya se conoce. Dado el espectro (distribución de la intensidad de la luz en función de la frecuencia) de una galaxia, por ejemplo, y en base a una serie de plantillas de espectros conocidos, se puede estimar la distancia a la que se encuentra dicha galaxia, siempre con una probabilidad asociada que indica el grado de certidumbre. El método fue desarrollado por Narciso Benítez, actualmente investigador del Instituto de Astrofísica de Andalucía. Investigadores del Instituto de Astrofísica de Canarias también han utilizado los métodos bayesianos para estudiar exoplanetas (planetas fuera de nuestro sistema solar) a través de sus eclipses secundarios, para indagar en el magnetismo de las zonas del sol en calma, o para determinar la fracción de materia oscura en determinadas galaxias, entre otras cosas.

En los últimos meses, muchos de los artículos publicados en las revistas científicas más prestigiosas  del mundo hacen también uso de métodos bayesianos a la hora de analizar sus datos. El grupo de investigación GENUD, de la Universidad de Zaragoza, participa en amplios estudios a nivel europeo sobre la nutrición, la obesidad y el ejercicio. En uno de sus últimos trabajos, realizan un estudio sobre la actividad física de más de 7500 niños de varios países europeos mediante un análisis estadístico bayesiano. Una de las conclusiones es que la actividad física que realizan los niños depende mucho del país de origen y del sexo, y que son muy pocos los que superan la recomendación de realizar más de una hora diaria de ejercicio (desde un escaso 2% para las niñas chipriotas, hasta un 34% en el caso de los niños belgas). Además, las chicas realizan en promedio menos actividad física que los chicos, algo que podría estar relacionado con motivos socio-culturales, como sugieren los autores.

Otro ejemplo que demuestra la importancia de la inferencia bayesiana es el artículo sobre el origen y propagación del virus de la inmunodeficiencia humana (HIV-1), publicado en la revista Science a principios de Octubre. En ese estudio, en el cual participa un investigador de la Universidad de Vigo, determinan que el virus surgió en los años 20 en Kinshasa, capital del Congo actual, y que su diseminación por Africa se debió a la activa red de transportes que conectaba ésta y otras grandes ciudades de la región con la zona subsahariana del continente. Estos resultados se obtuvieron haciendo análisis genéticos de secuencias del virus y utilizando, por supuesto, métodos de inferencia bayesiana. De esta misma manera, pero analizando el genoma humano, investigadores estadounidenses obtuvieron, en 2011, información acerca del tamaño y las tasas de migración de distintas poblaciones ancestrales de humanos, pudiendo así determinar cómo divergieron unas de otras para llegar a la situación demográfica actual.

En otro estudio actual de la revista Science, con colaboración del Museo Nacional de Ciencias Naturales (CSIC), se utiliza una vez más la inferencia bayesiana para estudiar más de 5000 anfibios en 4 continentes y ver cómo les está afectando la propagación de un tipo de fungi, organismo eucariota que incluye los mohos, levaduras o setas, entre otros. El llamado Batrachochytrium salamandrivorans fue traído desde Asia y está poniendo en peligro la diversidad de anfibios, atacando en particular a la población de salamandras europeas.

sol_salamandra

Además del color, otra cosa que tienen en común el sol y esta salamandra es que la inferencia bayesiana permite estudiar a ambos. Fotos:  ESA y Marco Pulidori.

Bayes en la vida real

Además de servir para extraer información fiable a partir de un gran número de datos, como en los ejemplos anteriores, los métodos bayesianos también permiten realizar predicciones con gran exactitud y son cruciales en la toma racional de decisiones. Como ya hemos visto, la inferencia bayesiana permite diagnosticar con mayor eficacia la dolencia que afecta a un paciente, utilizando toda la información previa que se posee acerca de pacientes con síntomas semejantes. Esto proporciona al médico una base científica para poder decidir de manera racional qué tratamiento seguir.

La llamada teoría de la decisión es, de hecho, todo un campo de investigación con aplicaciones multidisciplinares. Y, según explicó el Dr José Miguel Bernardo en una charla en Tenerife el pasado mes de Noviembre, la única forma racional de tomar decisiones es conociendo las probabilidades de los diferentes sucesos que, según la teoría bayesiana, indican el grado de creencia o de incertidumbre de que ocurran. Debido a esto, los métodos bayesianos son utilizados en muchísimas áreas a la hora de tomar decisiones para minimizar los riesgos. Desde empresas que desean lanzar un nuevo producto al mercado sin saber a ciencia cierta si tendrá éxito, hasta ciudadanos que no saben si invertir o no su dinero, pasando por estudiantes que dudan a la hora de contestar un examen con preguntas de opción múltiple: todas estas decisiones se pueden analizar desde un punto de vista matemático para decidir cuál es la mejor opción.

La inferencia bayesiana permite realizar predicciones certeras basándose en la información previa subjetiva que se posee. Otro ejemplo más es el de la predicción de resultados electorales. Conociendo los resultados de elecciones pasadas (información que es, de hecho, pública), se puede determinar qué mesas electorales han obtenido a lo largo de la historia resultados muy similares a los obtenidos a nivel nacional, o dicho de otro modo, qué mesas electorales han “acertado” más y son, por lo tanto, más representativas de la población total. Analizando un reducido número de votos de dichas mesas, se pueden realizar en muy poco tiempo predicciones sobre el resultado final global, capaces de prever el reparto definitivo de escaños con una precisión sin igual. Esto no sería posible utilizando estadística clásica (frecuentista), ya que la información subjetiva no se tendría en cuenta.

Más allá de estudios científicos especializados, sin duda fundamentales pero remotos para la mayoría de las personas, hemos visto que los métodos derivados del teorema que enunció Thomas Bayes en el siglo XVIII han cobrado más importancia que nunca y tienen, a día de hoy, multitud de aplicaciones en la vida real. Una prueba más del inmenso poder de los números, si sabemos cómo usarlos.

Para una comparación más exhaustiva entre las diferentes características y filosofías de las interpretaciones frecuentista y bayesiana en la inferencia estadística, así como algunos ejemplos más elaborados y cálculos detallados, leer el interesante artículo de Jake VanderPlas

***

Foto de portada: Dados (Autor: The Open University)

¿Te gusta Mayhem Revista? Recibe nuestras entradas en un boletín semanal. Apúntate aquí.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s