En la era de la información en la que vivimos, el big data y la inteligencia artificial (IA) están redefiniendo nuestra comprensión del comportamiento humano. Todo el mundo miente, un libro de Seth Stephens-Davidowitz, se sumerge en este mundo digital para revelar verdades ocultas sobre nosotros mismos que desafían nuestras percepciones tradicionales.

A través del análisis de enormes cantidades de datos generados por nuestras interacciones en línea, Stephens-Davidowitz descubre que, en la privacidad de nuestras búsquedas en internet, somos más honestos sobre nuestros deseos, miedos y comportamientos que en cualquier otra situación.

Este libro no solo nos ofrece una mirada profunda a los secretos que el big data puede desvelar sobre la sociedad, sino que también plantea preguntas importantes sobre la ética y el poder de la IA en la interpretación de estos datos.

EVERYBODY LIES | Seth Stephens-Davidowitz | Talks at Google

Descubre cómo la ciencia de datos es más intuitiva de lo que imaginas

Quizás hayas oído hablar del término, pero ¿qué significa realmente big data? El nombre lo dice todo: se refiere a un volumen inmenso de datos, tan vasto que desafía la comprensión humana. El big data necesita de poder computacional para descifrar patrones, pero, paradójicamente, a pesar de su enorme escala, la ciencia de datos también posee un aspecto intuitivo. En cierto modo, todos practicamos la ciencia de datos en nuestra vida diaria.

Tomemos el ejemplo de la abuela del autor. Durante un Día de Acción de Gracias, comenzó a describir cómo debería ser la pareja ideal para él, destacando cualidades como inteligencia, amabilidad, sentido del humor, sociabilidad y atractivo. A sus 88 años, ella había acumulado una vasta experiencia sobre relaciones, utilizando su conocimiento para identificar patrones y predecir interacciones, tal como lo haría un científico de datos.

Aunque intuitiva, la ciencia de datos no se basa únicamente en la intuición, que no es ciencia por sí misma. Es crucial utilizar los datos de manera adecuada para refinar nuestra comprensión del mundo. Los datos nos permiten verificar o desmentir nuestras suposiciones iniciales y nos ayudan a identificar patrones y hacer predicciones con mayor precisión que solo con la experiencia personal.

Por ejemplo, la abuela estaba convencida de que las relaciones son más duraderas cuando los parejas comparten amigos comunes, basándose en su experiencia personal. Sin embargo, un estudio de 2014 por Lars Backstrom y Jon Kleinberg, utilizando datos de Facebook, encontró que las parejas con más amigos en común eran más propensas a pasar de «en una relación» a «soltero».

Este caso ilustra cómo, aunque la intuición puede llevarnos lejos, los datos pueden refinar y enriquecer nuestra perspectiva, incluso la de las personas más intuitivas.

Google y el big data: Innovación constante en la obtención de información

La ciencia de datos se distingue no solo por la cantidad de datos que recopila, sino por su capacidad para transformar estos datos en información útil que revela patrones y facilita predicciones. Google es un ejemplo emblemático de esta capacidad. Fundado en 1998 por Larry Page y Sergey Brin, Google no se convirtió en un gigante solo por acumular grandes cantidades de datos, sino por cómo estos datos se han utilizado para mejorar la relevancia y la eficiencia de las búsquedas.

Antes de Google, buscar «Bill Clinton» en un motor de búsqueda resultaba en una lista de sitios que repetían frecuentemente la frase, a menudo devolviendo resultados irrelevantes. El algoritmo de Brin y Page cambió esto al considerar que un sitio web era más relevante si muchos otros sitios enlazaban hacia él. Por ejemplo, el sitio oficial de la Casa Blanca de Bill Clinton, con miles de enlaces, resultaba más útil que otros sitios menos referenciados pero que mencionaban su nombre con más frecuencia.

Este enfoque permitió a Google no solo detectar patrones sino también predecir qué información sería más relevante para los usuarios, demostrando así una de las grandes fortalezas del big data: su capacidad para ofrecer constantemente nueva información.

En la era pre-big data, dependíamos de métodos tradicionales como encuestas telefónicas para obtener datos sobre desempleo o tasas de infección. Sin embargo, con el big data, podemos obtener esta información de manera más rápida y precisa. Un ejemplo de esto es el trabajo del ingeniero de Google, Jeremy Ginsberg, quien utilizó búsquedas relacionadas con la gripe para rastrear la propagación de esta enfermedad, demostrando cómo el big data puede ser una herramienta poderosa para entender y reaccionar a fenómenos globales en tiempo real.

La veracidad del big data: Revelando lo que las encuestas ocultan

Recientemente, una encuesta realizada a graduados de la Universidad de Maryland reveló que solo el dos por ciento admitió haberse graduado con un promedio de calificaciones (GPA) inferior a 2.5 en una escala de cuatro puntos. Sin embargo, los registros oficiales indican que la cifra real era mucho mayor, alcanzando el 11 por ciento. Este caso ilustra una verdad universal sobre las encuestas: las personas a menudo mienten.

¿Por qué mentimos en las encuestas? Es natural querer proyectar una imagen positiva de nosotros mismos, tanto para nuestro propio autoconcepto como para los demás. Este fenómeno, conocido como sesgo de deseabilidad social, implica que adaptamos nuestras respuestas para parecer mejor ante los ojos de los demás. Además, existe la tendencia a querer impresionar a quien realiza la encuesta, independientemente de si nuestra respuesta es anónima o no.

Esta propensión humana a ajustar la verdad hace que las encuestas sean herramientas poco confiables para entender verdaderamente comportamientos, pensamientos, deseos y creencias. Aquí es donde el big data muestra su fuerza: su capacidad para revelar la verdad sin filtros. Al recopilar datos de comportamientos en línea, el big data ofrece insights auténticos, ya que es menos probable que las personas manipulen sus respuestas cuando no están siendo directamente interrogadas.

Un ejemplo claro se encuentra en el análisis de datos de sitios como PornHub, donde se descubrió que algunas mujeres buscaban términos como «manzana anal», algo que probablemente no admitirían en una encuesta convencional. Este hallazgo subraya cómo el big data puede descubrir aspectos sorprendentes y ocultos de la conducta humana que raramente se compartirían en situaciones de encuesta tradicional.

Big data: Descifrando los detalles en subconjuntos de datos

El big data es un concepto vasto y a menudo incomprensible debido a la enorme cantidad de información que se maneja diariamente, no solo en plataformas como Google sino en toda la red. Este volumen masivo de datos nos permite ahora explorar y realizar análisis que antes eran impensables.

Una de las grandes capacidades del big data es su habilidad para permitirnos concentrarnos en subconjuntos específicos de datos y extraer información valiosa de manera confiable. Un ejemplo ilustrativo de esto es el trabajo del profesor de Harvard, Raj Chetty, quien utilizó big data para investigar la viabilidad del sueño americano, específicamente si las personas de familias pobres pueden ascender a la riqueza.

Chetty y su equipo analizaron más de mil millones de registros fiscales del Servicio de Impuestos Internos de EE. UU., descubriendo que, en comparación con países como Dinamarca y Canadá, las posibilidades de éxito para los estadounidenses pobres eran significativamente menores. Sin embargo, la gran ventaja del big data no solo radica en estas comparaciones generales, sino en su capacidad para detallar aún más estos análisis.

Por ejemplo, al enfocarse en diferentes estados y ciudades, Chetty encontró que lugares como San José, California, ofrecían a los estadounidenses pobres una probabilidad de éxito (12.9%) superior a la de Dinamarca. En contraste, en Charlotte, Carolina del Norte, las posibilidades eran mucho menores (4.4%).

Este enfoque detallado demuestra cómo el big data no solo nos proporciona una visión general, sino que también nos permite entender las dinámicas a nivel local y regional, ofreciendo una perspectiva más matizada y profunda del mundo en que vivimos.

Big Data: Simplificando y reduciendo costos en las pruebas A/B

En un mundo donde constantemente nos enfrentamos a historias sobre correlaciones, como un alimento vinculado a una enfermedad o un hábito relacionado con el éxito, es crucial entender que correlación no implica causalidad. Para determinar efectos causales, es necesario recurrir a experimentos controlados y aleatorizados, conocidos como pruebas A/B.

Por ejemplo, si un estudio sugiere que las personas que beben alcohol moderadamente son más saludables, esto no necesariamente significa que el consumo moderado de alcohol mejore la salud. Para probar esta hipótesis, sería necesario dividir un grupo de individuos seleccionados al azar en dos subgrupos: uno que consuma una copa de vino tinto diaria y otro que no consuma alcohol. Tras un año, comparar la salud de ambos grupos podría indicar si el consumo moderado realmente influye positivamente en la salud.

El big data ha revolucionado la manera en que se realizan estas pruebas A/B, facilitando y abaratando su ejecución. Antes de su implementación, llevar a cabo estas pruebas requería un proceso laborioso que incluía reclutar participantes, realizar encuestas y analizar resultados manualmente. Hoy en día, los científicos de datos pueden automatizar y optimizar este proceso mediante programas que analizan grandes volúmenes de datos.

Un ejemplo destacado de la aplicación de pruebas A/B en la era del big data fue durante la campaña presidencial de Barack Obama en 2008. El equipo de la campaña experimentó con diferentes combinaciones de imágenes y textos en su sitio web para maximizar el registro y las donaciones, analizando posteriormente los datos para identificar la configuración más efectiva.

Este enfoque no solo muestra cómo el big data puede facilitar experimentos complejos, sino también cómo puede ser una herramienta poderosa para tomar decisiones basadas en evidencia real y no solo en suposiciones.

Limitaciones del big data: Complejidad variable y la necesidad de datos humanos

A pesar de sus numerosas ventajas, el big data no es infalible. Su principal limitación surge cuando se manejan conjuntos de datos con muchas variables, lo que puede dificultar la extracción de respuestas confiables debido a que la abundancia de variables puede oscurecer los hallazgos.

Un ejemplo ilustrativo es el trabajo del genetista conductual Robert Plomin. En 1998, Plomin creyó haber identificado un gen, IGF2r, que influía en el coeficiente intelectual (CI) de las personas. Analizó un conjunto de datos de varios cientos de estudiantes, comparando su ADN con sus niveles de CI, y observó que el gen IGF2r aparecía con el doble de frecuencia en estudiantes con CI altos. Sin embargo, esta correlación resultó ser una coincidencia; años después, al repetir el estudio, la relación entre el CI y la presencia del IGF2r desapareció.

Este caso subraya un problema común en el análisis de big data: el genoma humano contiene miles de genes, y las correlaciones detectadas pueden ser meramente accidentales debido a la gran cantidad de variables involucradas.

Además, el big data a menudo carece de lo que se denomina «small data», es decir, datos que reflejan la experiencia humana. Por ejemplo, aunque Facebook puede medir clics y «me gusta» con big data, estos datos no proporcionan una comprensión profunda de la experiencia real de los usuarios en la plataforma. Para capturar estas dimensiones no cuantificables, Facebook utiliza encuestas a menor escala y emplea a psicólogos y sociólogos que ayudan a interpretar aspectos de la experiencia del usuario que el big data por sí solo no puede revelar.

Estos ejemplos demuestran que, aunque el big data es una herramienta poderosa, tiene limitaciones significativas, especialmente cuando se trata de entender la complejidad humana y las sutilezas que requieren un enfoque más matizado.

La ética del uso gubernamental del big data para identificar individuos

Cada búsqueda en Google o compra en línea que realizas contribuye al big data, pero esto plantea importantes cuestiones éticas. ¿Qué sucedería si los gobiernos pudieran acceder a estos datos? ¿Cómo los utilizarían?

Considera el caso de alguien que escribe «Quiero matarme» en un motor de búsqueda. Aunque podría parecer prudente que la policía local intervenga, las implicaciones son complejas. En Estados Unidos, se realizan mensualmente 3.5 millones de búsquedas relacionadas con el suicidio, mientras que los suicidios consumados son menos de 4,000 al mes. Actuar sobre cada búsqueda no solo sería un enorme desperdicio de recursos, sino que también plantearía serias preocupaciones sobre la privacidad.

La cuestión ética central es si los gobiernos deberían tener el derecho de poseer y utilizar datos de búsqueda individuales, lo que podría considerarse una invasión de la privacidad. A pesar de estas preocupaciones, el uso de big data a nivel regional sigue adelante, apoyado por estudios como el de Christine Ma-Kellams y colaboradores en 2016, que encontraron una correlación significativa entre las búsquedas de suicidio en Google y las tasas reales de suicidio, aunque solo a nivel estatal.

Este hallazgo sugiere que, en lugar de vigilancia individual, los datos podrían emplearse para fortalecer los programas de prevención del suicidio a nivel local o estatal. Las autoridades podrían utilizar esta información para orientar esfuerzos de prevención, difundiendo mensajes en medios de comunicación sobre dónde y cómo buscar ayuda.

Este enfoque demuestra que el big data, a pesar de las preocupaciones éticas que suscita, tiene el potencial de ser utilizado de manera responsable y efectiva para mejorar la salud pública sin comprometer la privacidad individual.