En una época donde los datos son cada vez más abundantes y los algoritmos de aprendizaje automático se han convertido en una parte fundamental de muchos sectores, es importante entender las causas y efectos que subyacen detrás de los datos.

El libro del porqué: La nueva ciencia de la causa y el efecto de Judea Pearl y Dana MacKenzie ofrece una guía comprensiva y accesible para entender el mundo de la causalidad, lo que es crucial para sacar el máximo provecho de los datos y los algoritmos.

La idea clave de El libro del porqué es que el mundo está lleno de preguntas y problemas que necesitan ser resueltos, pero para hacerlo debemos entender la causa y el efecto de los hechos.

El libro explora cómo la lógica bayesiana y los gráficos causales pueden ayudarnos a entender el mundo alrededor de nosotros de una forma más profunda y lógica. Los autores argumentan que si podemos entender las causas y las razones detrás de los eventos, podemos hacer predicciones más precisas y tomar decisiones más informadas en todo tipo de ámbitos, desde la medicina hasta la política y el negocio.

El libro también discute las implicaciones éticas de la causalidad, como el uso de datos para discriminar o el impacto de la causalidad en la privacidad.

Qué aporta de diferente El libro del porqué

Ofrece una perspectiva novedosa y fresca sobre el mundo de la causalidad, ya que combina las tradicionales técnicas de análisis estadístico con un enfoque más dinámico y visual de la causalidad.

Uno de los aspectos más innovadores del libro es su uso de gráficos causales para representar las relaciones de causa y efecto entre los eventos. Esto ayuda a los lectores a visualizar más fácilmente los patrones de causalidad y a entender mejor el impacto de los eventos en el mundo real. Además, ofrece una visión más amplia de la causalidad, que incluye la filosofía, la ética y las aplicaciones prácticas de la causalidad en la vida cotidiana.

Principales ideas de El libro del porqué

  • Algunos estadísticos han menospreciado la noción de causalidad.
  • Los datos por sí solos pueden inducir a error cuando se descuida la causalidad.
  • El primer peldaño de la Escalera de Causalidad tiene que ver con la asociación y la probabilidad.
  • El segundo peldaño de la escalera es la intervención, que utilizamos tanto en el día a día como en la investigación.
  • El tercer y último peldaño de la escalera implica abordar los contrafácticos.
  • Controlar los factores de confusión es importante para establecer la causalidad.
  • La identificación de un mediador puede ser vital para establecer una causalidad correcta.
  • Los factores y sus relaciones se pueden expresar con fórmulas matemáticas, que podrían convertirse en algoritmos.

Algunos estadísticos han menospreciado la noción de causalidad.

Probablemente habrás escuchado la frase «correlación no implica causalidad» repetida hasta la saciedad. Prácticamente se ha aceptado como un hecho durante las últimas décadas.

En parte, esto se debe al hecho de que la comunidad científica ha restado importancia a la causalidad como idea. A principios del siglo XX, el matemático inglés Karl Pearson personificó esta visión.

El laboratorio de biometría de Pearson era la principal autoridad mundial en estadística y le gustaba afirmar que la ciencia no era más que datos puros. La idea era que, como no se podía probar la causalidad, no se podía representar como datos. Por lo tanto, consideró que la causalidad era científicamente inválida.

A Pearson le gustaba demostrar su punto señalando correlaciones que consideraba espurias. Una de las favoritas fue la observación de que si una nación consume más chocolate per cápita, produce más premios Nobel. Para él, era una correlación sin sentido, por lo que buscar causalidad era innecesario.

Pero este intento de ridiculizar en realidad esconde un factor causal; ¡ Es más probable que las naciones más ricas consuman más chocolate, así como es más probable que produzcan avances científicos notables para el comité del Nobel!

Además, más tarde resultó que la causalidad se podía representar matemáticamente. Esto es lo que demostró el genetista Sewall Wright mientras investigaba en la Universidad de Harvard en 1912.

Wright estaba estudiando las marcas en los pelajes de los conejillos de indias para determinar hasta qué punto eran hereditarios. Encontró la respuesta a esta pregunta causal utilizando datos.

Comenzó con un diagrama matemático. Wright dibujó flechas que conectaban causas y resultados, vinculando los colores del pelaje de los animales con factores contribuyentes en su entorno inmediato y desarrollo.

Wright también desarrolló un diagrama de ruta para representar estas relaciones, en el que un signo «mayor que» (>) significa «tiene un efecto en». Por ejemplo: factores de desarrollo > período de gestación > patrón del pelaje.

Luego, Wright convirtió este diagrama en una ecuación algebraica, utilizando los datos recopilados. Demostró que el 42 por ciento de un determinado patrón de pelaje era causado por la herencia, mientras que el 58 por ciento era el resultado de factores de desarrollo.

Dado el clima científico, Wright recibió un duro golpe: fue atacado con tanta vehemencia que sus métodos para establecer la causalidad a partir de la correlación quedaron enterrados durante décadas.

Pero los tiempos han cambiado; Ahora finalmente ha llegado el momento de revivir su trabajo. Los campos de investigación, desde la medicina hasta la ciencia del clima, están comenzando a acoger la causalidad como un principio. Seguramente la Revolución Causal ha comenzado.

Los datos por sí solos pueden inducir a error cuando se descuida la causalidad.

Es una verdad generalmente reconocida que si realmente quieres entender la causa raíz de algo, tendrás que recopilar datos al respecto.

Sin embargo, hay que hacer una advertencia: a menos que los datos se analicen adecuadamente, pueden malinterpretarse enormemente.

Algo parecido ocurrió con la vacuna contra la viruela. Cuando se introdujo la vacuna en el siglo XVIII, los datos parecían mostrar que en realidad estaba causando más muertes que la propia viruela.

Usemos algunos números hipotéticos para demostrar el caso. Imaginemos que de un millón de niños, el 99 por ciento recibe la vacuna contra la viruela. Hay un 1 por ciento de posibilidades de que la vacuna provoque una reacción y un 1 por ciento de posibilidades de que esa reacción sea fatal. Es decir, 99 víctimas mortales.

En cambio, el 1 por ciento del millón de niños no están vacunados. Estos 10.000 niños tienen un 2 por ciento de posibilidades de desarrollar viruela. Y de esos 200, el 20 por ciento morirá. Son 40 niños.

Cuando se comparan 99 muertes relacionadas con la vacuna con 40 muertes causadas por enfermedades, se puede ver por qué la gente podría pensar que la vacunación es más mortal.

Pero aquí está el problema. Si queremos comprender verdaderamente los datos, tenemos que mirar algo más que lo básico.

Entonces, en el caso de los datos sobre la vacuna contra la viruela, realmente necesitamos hacernos la pregunta: «¿Cuántos habrían muerto si nadie hubiera sido vacunado?»

Haz las cuentas y verás que habrían muerto 4.000 niños. Los datos actuales oscurecen ese hecho y los indudables beneficios de la vacuna.

Todo esto demuestra que los datos se pueden utilizar para encontrar conexiones entre casi cualquier cosa.

Quizás le sorprenda saber que los datos muestran una relación entre la talla de zapato de un niño y su capacidad de lectura.

Puede parecer un disparate que ambos estén relacionados, pero lo están por una causa común: la edad. Los niños mayores tendrán pies más grandes en promedio que los niños más pequeños y serán mejores lectores.

Es precisamente ese descuido de las causas comunes lo que llevó a Pearson a despreciar tanto la relación entre el consumo de chocolate y los ganadores del Premio Nobel.

Para solucionar este problema, los autores han desarrollado un proceso para mirar más allá de la observación inicial de los datos. La llaman la Escalera de la Causalidad y comenzaremos a subirla ahora.

El primer peldaño de la Escalera de Causalidad tiene que ver con la asociación y la probabilidad.

Por naturaleza, tendemos a mirar el mundo que nos rodea y empezar a hacer conexiones. Es ese tipo de pensamiento el que se encuentra en el primer peldaño de la Escalera de Causalidad. Curiosamente, aunque estamos programados para hacerlo casi desde que nacemos, las máquinas que hemos creado para ayudarnos en nuestra vida diaria todavía no pueden acercarse.

Atrapados en este primer peldaño están la mayoría de los animales, así como los programas de Inteligencia Artificial.

Un búho, por ejemplo, rastrea a su presa monitoreando sus movimientos. Intenta predecir dónde estará la presa en el próximo momento. Al búho no le interesa por qué se mueve la presa.

Los coches autónomos pueden parecer muy futuristas, pero su IA no puede pasar el primer peldaño de la escalera. Dado que están programados sólo para reaccionar ante la observación, un automóvil no puede calcular, por ejemplo, las diversas reacciones potenciales que un peatón que cruza la calle en estado de ebriedad tendrá ante la bocina de un automóvil. Habría que programar todos los escenarios posibles y potenciales en el coche para que éste pudiera reaccionar adecuadamente ante cada uno de ellos.

También se puede considerar que la recopilación de datos existe en ese primer peldaño porque implica proyecciones basadas en la observación pasiva.

Imagine que a un director de marketing se le pide que averigüe la probabilidad de que un cliente que compra pasta de dientes también compre hilo dental. Probablemente recopilaría datos sobre el número de clientes que compran pasta de dientes y de hilo dental.

Simbólicamente, las estadísticas representan esta consulta como P(hilo dental | pasta de dientes) , o «¿Cuál es la probabilidad de usar hilo dental, dado que ves pasta de dientes?»

Este tipo de preguntas forman la base básica de la estadística. Pero no nos dicen nada sobre causa y efecto. ¿Cómo puede el director de marketing calcular si la causa es la pasta de dientes o el hilo dental? Al examinar las ventas de productos de higiene dental, puede que al final no sea tan importante. Pero, en la mayoría de las demás ocasiones, está claro que observar la probabilidad básica por sí sola no es suficientemente informativo.

El segundo peldaño de la escalera es la intervención, que utilizamos tanto en el día a día como en la investigación.

Avanzar en la Escalera de la Causalidad requiere no sólo observar el mundo sino cambiarlo. Sólo los humanos hacen esto de forma regular.

El segundo peldaño de la escalera se caracteriza por la pregunta “¿Qué pasa si hacemos…?” . . ?”

Es la parte de «hacer» la que es importante. A diferencia del primer peldaño pasivo, el segundo peldaño se caracteriza por influir activamente en los resultados.

Imagina que tienes dolor de cabeza y tomas un analgésico. Se trata de una intervención activa destinada a aliviar el dolor que está experimentando.

Volvamos a nuestro responsable de marketing de higiene dental desde el último apartado. Podría preguntar: “¿Se verán afectadas las ventas de hilo dental si cambiamos el precio de la pasta de dientes?”

Por el contrario, te sorprenderá saber que actualmente las computadoras no se pueden programar para formular estas preguntas con precisión. Y es por eso que no pueden pasar del primer peldaño de la escalera.

Una de las mejores formas de probar el efecto de algo es realizar un experimento controlado.

Un experimento controlado implica tomar grupos lo más similares posible entre sí y aplicar una prueba a uno pero no al otro. Como resultado, la variable y su efecto pueden medirse objetivamente y de forma aislada.

Este tipo de experimentos controlados no son nuevos; de hecho, están reportados en la Biblia. En la historia de Daniel, el rey babilónico Nabucodonosor buscó para su corte a algunos de los nobles capturados en Jerusalén, como era costumbre. Esto implicó educarlos en la dieta babilónica de élite de ricas carnes y vino. Sin embargo, de acuerdo con las leyes dietéticas judías, algunos de los niños judíos no comían carne.

Daniel fue uno de ellos. Sugirió que a él y a tres amigos se les diera una dieta vegetariana, mientras que otro grupo de niños siguiera la dieta del rey. Hoy en día llamaríamos a este segundo grupo grupo de control. Después de diez días compararían los resultados. No hace falta decir que el grupo de Daniel floreció y Nabucodonosor les dio puestos en el tribunal superior.

Un ejemplo más moderno sería Facebook. A la empresa le encanta experimentar con la disposición de elementos en páginas web y comparar diferentes grupos que ven diferentes configuraciones entre sí.

El tercer y último peldaño de la escalera implica abordar los contrafácticos.

El tercer peldaño de la escalera es exclusivo de los humanos: es la capacidad de imaginar cómo diferentes intervenciones pueden conducir a diferentes resultados.

Una forma común de poner en práctica esta imaginación es utilizar modelos contrafactuales. En otras palabras, imaginar qué pasaría si se tomara otra acción.

Los científicos del clima, por nombrar un grupo, hacen esto todo el tiempo haciendo preguntas como: «¿Veríamos olas de calor intensas si el dióxido de carbono en la atmósfera estuviera en niveles preindustriales

Los contrafactuales también se pueden aplicar a eventos pasados. Son comunes en procedimientos legales donde toman la forma de preguntas “contrafácticas” de causalidad. Cuando alguien ha sido asesinado a tiros, el juicio tiene como objetivo responder a la pregunta: “Si el acusado hubiera apretado el gatillo, ¿habría muerto la víctima?”

Este tipo de preguntas contrafácticas son ajenas a las máquinas.

Si una casa se incendia después de que alguien enciende una cerilla, la mayoría de la gente estaría feliz de afirmar que la casa seguiría en pie si no fuera por la cerilla encendida.

Sin embargo, lógicamente también es cierto que aún estaría en pie si no hubiera habido oxígeno. Si bien el oxígeno es normal y esperado, el encendido de una cerilla no lo es, por lo que ignoramos la relación causal entre el oxígeno y el fuego.

Una computadora no piensa de esa manera. Para ello, tanto la cerilla encendida como el oxígeno se considerarían factores iguales. En lenguaje matemático, ambas son «causas necesarias». Por lo tanto, es muy probable que la computadora concluya que el oxígeno fue el culpable del incendio.

Una computadora también podría calcular si la cerilla fue una “causa suficiente” del incendio. Esto significa que, aunque pueden haber sido necesarios otros factores para que se iniciara el incendio, el ordenador determina si la cerilla fue lo suficientemente responsable como para ser considerada la causa . Si hubiera sido programado para reconocer que el oxígeno era necesario para el incendio, podría concluir que esa fue la causa.

Comprender los tres peldaños de la Escalera de la Causalidad es crucial para ayudarnos a comprender las cuestiones causales. Pero esto plantea la pregunta: en los estudios científicos, ¿qué factores de complicación deberían identificarse en los diferentes peldaños de la escalera? Veamos eso a continuación.

Controlar los factores de confusión es importante para establecer la causalidad.

Ya hemos visto los argumentos a favor de los ensayos controlados. Pero incluso en estos escenarios debemos tener cuidado; los resultados aún pueden ser engañosos si no se identifican los factores influyentes conocidos como factores de confusión .

Aquí sería mejor retroceder un momento para establecer una definición. Los factores de confusión influyen tanto en los participantes como en el resultado del experimento. Generalmente se asocian con el segundo peldaño de la Escalera de la Causalidad, ya que ajustar un experimento para tenerlos en cuenta requiere intervención.

Por ejemplo, cuando un grupo de prueba es en promedio mucho más joven que un grupo de control, la edad se convierte en un factor de confusión. Para controlarlo, sólo se deben comparar personas de edades similares entre los grupos.

Pero los factores de confusión son complicados, ya que a menudo es muy difícil eliminarlos. De hecho, esa es exactamente la razón por la que hubo un debate tan animado sobre el vínculo entre fumar y el cáncer de pulmón en las décadas de 1950 y 1960. Era imposible para los escépticos descartar que una tercera variable –como la genética– pudiera ser la responsable.

Sin embargo, una forma de controlar los factores de confusión es introducir la aleatorización.

Por ejemplo, los sesgos de los investigadores son un factor de confusión. Estos pueden controlarse asignando aleatoriamente a los participantes a grupos de control y de tratamiento. De esa manera, ni los participantes ni los investigadores saben quién está en qué grupo, que es precisamente la razón por la que se administran placebos al grupo de control en los ensayos médicos.

Pero la aleatorización no siempre es práctica o ética. Por ejemplo, los investigadores no podrían éticamente decirle a un grupo aleatorio de personas que fumen durante 30 años para probar el vínculo con el cáncer. ¡Podría matarlos!

Del mismo modo, no tiene mucho sentido renunciar a un ensayo controlado aleatorio en favor de recopilar datos de personas que, por ejemplo, toman medicamentos recetados por su propia voluntad.

Los datos sólo producirían resultados completamente engañosos. La decisión de las personas de tomar o no el medicamento puede basarse en todo tipo de razones, como la asequibilidad. En ese caso, sólo las personas dentro de un determinado nivel de ingresos proporcionarían datos en el ensayo.

Una forma de controlar esto sería que los investigadores intervinieran realizando un experimento controlado. Los autores llaman a estas acciones «factores de acción».

La identificación de un mediador puede ser vital para establecer una causalidad correcta.

Saber que existe una causalidad es sólo la mitad de la batalla. Lo que realmente importa es establecer por qué una cosa causa otra.

Si puede descubrir por qué una enfermedad es causada por algo determinado, la prevención y la búsqueda de una cura serán mucho más fáciles.

Un mediador es una variable que nos dice por qué un factor conduce a un resultado particular.

Esto se ilustra mejor con un ejemplo. Las casas están equipadas con alarmas para avisarnos si se produce un incendio. Pero, en realidad, están ahí para detectar humo. El humo es el mecanismo –el mediador– por el que sabemos que se ha iniciado un incendio. Un diagrama causal para estas relaciones las expresaría como fuego > humo > alarma.

Los mediadores están en el tercer peldaño de la Escalera de la Causalidad porque van de la mano de los contrafácticos. Podríamos preguntar, por ejemplo: «¿El incendio habría activado la alarma si no fuera por el humo?».

Los mediadores son cosas útiles, entonces, pero podemos tener problemas si empezamos a identificarlos erróneamente.

El ejemplo clásico es el escorbuto, la enfermedad que asoló a los marineros durante siglos. Ahora sabemos que se puede prevenir tomando vitamina C. Sin embargo, cuando en 1747 se descubrió que los cítricos contrarrestaban el escorbuto, la gente supuso que era la acidez de las frutas la que hacía el trabajo. Después de todo, las vitaminas no se descubrieron hasta 1912.

La vía causal es cítricos > niveles de vitamina C en el cuerpo > escorbuto.

A pesar de que los marineros habían identificado incorrectamente al mediador, el escorbuto todavía estaba prácticamente erradicado en las filas de la Armada británica mediante la distribución juiciosa de frutas cítricas. Pero el mismo error resultó en el desastre que sufrió la expedición británica al Ártico de 1875.

En ese viaje, el jugo de lima de los marineros era ciertamente ácido, pero carecía de vitamina C. Al poco tiempo, la aparición del escorbuto se hizo evidente.

Sin embargo, algunos de los marineros también comían carne fresca de reno, que contiene vitamina C. Por lo tanto, cuando los marineros que comían carne enlatada contrajeron escorbuto, los médicos concluyeron que la causa era la carne en mal estado.

Fue una deducción que resultó mortal; el mediador había sido identificado erróneamente. Como resultado, la expedición de Robert Falcon Scott al Polo Sur desembarcó sin cítricos. Sólo un miembro de la tripulación afectado por el escorbuto logró regresar con vida, mientras que dos de los cinco que fallecieron probablemente murieron de escorbuto.

Para poner todo esto en términos contrafácticos, si los médicos hubieran sabido acerca de las vitaminas cuando el escorbuto estaba generalizado, el destino del equipo de Scott bien podría haber sido diferente.

Los factores y sus relaciones se pueden expresar con fórmulas matemáticas, que podrían convertirse en algoritmos.

Hasta ahora hemos reflexionado bastante sobre la causalidad. Pero, ¿nos ayudan estas reflexiones a determinar si la correlación implica causalidad? Del mismo modo, ¿qué potencial tendría una respuesta para la IA?

Lo primero que podemos hacer es dibujar diagramas causales. Después de eso, es posible crear una fórmula matemática que demuestre la probabilidad de que exista una relación entre correlación y causalidad.

Un diagrama causal presenta todos los factores conocidos en un solo lugar. Los factores que se afectan directamente entre sí se relacionan con flechas. Entonces es posible ver claramente cuáles son mediadores y cuáles factores de confusión.

Los especialistas en atención médica bien podrían intentar esto al probar la eficacia de un medicamento que pretende reducir la presión arterial. Podrían dibujar un diagrama con flechas que vinculen el fármaco y la presión arterial, la esperanza de vida y la presión arterial, y el fármaco y la vida útil.

Dado que la edad afecta tanto a la presión arterial como a la esperanza de vida (de forma bastante independiente del fármaco), se vincula a ambos factores con una flecha que apunta en dos direcciones, lo que identifica la edad como un factor de confusión. O, simbólicamente: edad ←→ presión arterial.

Gracias al diagrama, la probabilidad de una vida útil de cualquier duración (suponiendo que el individuo haya tomado el medicamento) se puede expresar en una fórmula.

Lo inteligente es la metodología. Debido a que, lógicamente, avanza paso a paso, esto significa que los robots pueden ser los beneficiarios finales.

Este proceso de causa y efecto podría programarse en una computadora. Lo usaríamos tal como usamos los diagramas de ruta: se introducirían suposiciones y datos y luego plantearíamos una pregunta.

Si la computadora determina que la pregunta puede responderse utilizando el modelo causal, diseñará una fórmula matemática.

Esta fórmula podría usarse entonces para calcular, no sólo una respuesta, sino también la incertidumbre estadística de esa respuesta. Esta incertidumbre es un reflejo del conjunto limitado de datos, así como de posibles errores de medición.

Esto significaría que, por primera vez, las computadoras podrían preguntar “¿por qué?”

No tenemos que pensar mucho para ver los beneficios que podrían surgir si pudiéramos hacer a las computadoras preguntas causales: ¿Qué tipos de planetas podrían albergar vida? ¿Existe un gen que causa cáncer?

Seguramente, enormes avances en la ciencia y la medicina están ahí para ser aprovechados.

Libros para complementar El libro del porqué

Aquí hay una lista de libros complementarios que podrían ayudarte a entender mejor el tema de la causalidad:

  • Superforecasting: The Art and Science of Prediction de Philip Tetlock y Dan Gardner: Este libro ofrece una mirada a cómo las personas pueden entender y predecir el futuro mejor, y cómo la causalidad juega un papel clave en ese proceso.
  • La Señal y el Ruido de Nate Silver: Analiza la ciencia de las predicciones y cómo los factores de causa y efecto pueden ayudar a mejorar la precisión de las predicciones.

Foto de Sharad Bhat