Introducción a Machine Learning: ‘The Master Algorithm’ de Pedro Domingos

La inteligencia artificial es y será uno de los grandes temas de la evolución de la humanidad. En el capítulo de revisión de clásicos sobre la temática, es necesario reseñar The Master Algorithm un bestseller de 2015 de Pedro Domingos. Es una lectura perfecta para empezar en el Machine Learning, completa e instructiva y muy inspiradora.

Pero no se hizo famoso por esto, se hizo famoso porque apareció en la estantería de Xi Jinping (presidente de la República Popular China) durante su discurso de año de 2018 compartiendo protagonismo con los clásicos sobre el comunismo. Una muestra sobre sus prioridades y la importancia de la IA para China.

En The Master Algorithm Pedro Domingos muestra lo que esta transformación hace por la ciencia y lo que hace (y hará) por la humanidad. El aprendizaje automático es complejo y el tema es conceptualmente denso, pero Domingos lo explica con claro amor por su tema. Detalla cómo lord ordenadores llegaron a aprender por sí mismas; cómo funcionan los algoritmos de aprendizaje; y cómo funcionan las teorías en competencia sobre el pensamiento y el aprendizaje.

Principales ideas de ‘The Master Algorithm’

El «aprendizaje automático» permite a los ordenadores escribir sus propios algoritmos: instrucciones «precisas e inequívocas» que les dicen a las ordenadores exactamente «qué hacer».
El aprendizaje automático puede revolucionar la sociedad, pero requerirá un «algoritmo maestro» para alcanzar su máximo potencial.
Cinco escuelas de pensamiento sobre la inteligencia de las máquinas compiten entre sí:
Los «simbolistas» representan la inteligencia manipulando símbolos.
Los «construccionistas» modelan el aprendizaje en el cerebro humano.
Los «evolucionistas» ven la selección natural como el principal mecanismo de aprendizaje.
Los «bayesianos» dicen que la comprensión, naturalmente, es defectuosa y parcial. Siguen el teorema de Bayes”: revisa cuánto crees en una hipótesis cuando descubras nuevos datos.
Los «analizadores» creen que el aprendizaje requiere identificar similitudes.
Un alumno universal unificará los cinco modelos sin aceptar ninguna de sus debilidades.
Una vez que exista un algoritmo maestro, proporcionará acceso a modelos que son cada vez más precisos y útiles.

La «revolución del aprendizaje automático»

Interactúamos con el «aprendizaje automático» todos los días. Cuando Netflix sugiere una película o un motor de búsqueda completa tu consulta, eso es aprendizaje automático en acción (La personalización convierte a Netflix en TV global) . Esto es revolucionario. A lo largo de la historia, si querías que una máquina hiciera algo, tenías que construirla para que hiciera precisamente eso. Para las ordenadores, escribió un algoritmo detallado que explica cómo debe hacer lo que usted desea.

«El aprendizaje automático es algo nuevo bajo el sol: una tecnología que se construye a sí misma».

Los «algoritmos de aprendizaje automático» o «aprendices» funcionan de manera diferente. Los estudiantes computarizados resuelven las cosas por sí mismos. Los ordenadores que son «aprendices» pueden «programarse a sí mismas». Dales datos y aprenderán. Cuantos más datos tienen, más eficazmente piensan. Este desarrollo sin precedentes revolucionará la sociedad. El aprendizaje automático ya está transformando campos de la política a la secuenciación del ADN.

«Puede que no lo sepas, pero el aprendizaje automático está a tu alrededor».

La comprensión del aprendizaje automático comienza por familiarizarse con el término «algoritmo». Los algoritmos son instrucciones «precisas e inequívocas» que le dicen a los ordenadores exactamente «qué hacer». Diseñar algoritmos es difícil, requiere mucho tiempo y, a menudo, es contradictorio. Cuando los programadores y los científicos informáticos logran escribir buenos algoritmos, se basan en el trabajo de los demás y producen más y más algoritmos que interactúan como los elementos de un «ecosistema». Así como los ecosistemas evolucionan como depredadores, surgen obstáculos que amenazan a los algoritmos florecientes. Estos obstáculos se presentan en forma de diferentes tipos de complejidad, que ralentizan o colapsan los sistemas informáticos, provocando que sus algoritmos fallen.

«Algoritmos de aprendizaje»

Los algoritmos de aprendizaje, o los alumnos, escriben sus propios algoritmos; Los algoritmos de aprendizaje, que pueden estar alojados en varias ordenadores, escriben los programas que utilizan. La Revolución Industrial mecanizó el trabajo manual y la Revolución de la Información automatizó el trabajo mental. «El aprendizaje automático automatiza la automatización». Un científico humano genera, prueba y descarta o modifica cientos de hipótesis en una vida de trabajo. Los aprendices de máquina comprueban una hipótesis en menos de un segundo. El aprendizaje automático permite a los científicos abordar problemas complejos y densos en datos que no podrían manejar por sí mismos.

«Un algoritmo es una secuencia de instrucciones que le dicen a una computadora qué hacer».

Si deseas resolver dos problemas diferentes, utiliza dos herramientas o programas diferentes. El aprendizaje automático es diferente. A menudo, puedes utilizar «los mismos algoritmos» para resolver problemas en diferentes campos. ¿Sería posible desarrollar un «aprendiz universal» que pueda derivar todo el conocimiento? Un “algoritmo maestro” necesitaría más datos para funcionar que los algoritmos más especializados, pero la sociedad genera cantidades cada vez mayores de big data. Los avances en física, biología evolutiva, neurociencia, estadística e informática sugieren que un algoritmo maestro es posible.

Las «cinco tribus del aprendizaje automático»

Los científicos han estado investigando el aprendizaje automático durante décadas. Sus investigaciones surgen de cinco «tribus» principales. Cada uno aborda el problema de manera diferente, se preocupa más por un aspecto importante del desafío y tiene «un conjunto de creencias fundamentales». Cada grupo aboga por su propio algoritmo maestro, que encarna sus creencias y enfoque:

1. «Simbolistas»

Los simbolistas reducen la inteligencia a la manipulación de símbolos. Los simbolistas reconocen que el aprendizaje no puede comenzar «desde cero». Incluyen «conocimientos preexistentes» en su modelo. Los simbolistas utilizan la «deducción inversa» como su algoritmo maestro. La deducción inversa determina lo que constituye el conocimiento a través de un proceso de deducción y luego generaliza a partir del resultado. El árbol genealógico de los simbolistas se remonta al filósofo David Hume, uno de los más grandes empiristas y «el santo patrón de los simbolistas». Hume hizo una pregunta profunda: ¿Cómo se puede generalizar de lo que ha observado a lo que no ha experimentado? Todos los algoritmos de aprendizaje buscan encontrar una solución a esta consulta.

«El algoritmo maestro es el unificador del aprendizaje automático: permite que cualquier aplicación utilice cualquier aprendizaje».

Unos 250 años después de que Hume hiciera su pregunta, el físico David Wolpert creó el «teorema de no almuerzo gratis», que activa la bomba de la creación de conocimiento utilizando lo que ya se sabe, pero también incluyendo el azar. Ofrece «ejemplos positivos» de cada concepto para que el alumno los siga y «ejemplos negativos» de cosas que no ilustran el concepto. Para que un alumno identifique gatos, agregaría ejemplos positivos de gatos y ejemplos negativos de animales que no son gatos, como los perros. Para alcanzar más objetivos de aprendizaje, combine ejemplos o cree «conjuntos de reglas».

«El aprendizaje automático es una ciencia y una tecnología y ambas características nos dan pistas sobre cómo unificarlo».

Debido a que “la inducción es la inversa de la deducción”, puede crear reglas identificando qué regla le permitiría deducir un hecho de otro. También puede «inducir reglas puramente a partir de otras reglas». Dado que la «deducción inversa» es «muy intensiva desde el punto de vista computacional», la aplicación de «conjuntos de datos masivos» a tales problemas es muy difícil.

2. «Connectionists»

El científico Donald Hebb explicó un elemento clave de la función cerebral en 1949, cuando demostró que la actividad repetida en una neurona desencadena la actividad en las neuronas cercanas, un principio que a menudo se resume como «Las neuronas que disparan juntas se conectan entre sí». Los conexionistas usan algoritmos para «simular un cerebro». Las ordenadores no tienen tantas conexiones como el cerebro, por lo que un procesamiento más rápido debe compensarlo. El cerebro podría usar 1000 neuronas, pero las ordenadores usarían «el mismo cable mil veces».

«El aprendizaje automático es una especie de bomba de conocimiento: podemos usarlo para extraer una gran cantidad de conocimiento de los datos, pero primero tenemos que preparar la bomba».

Los cerebros contienen miles de millones de neuronas, que tienen la forma de pequeños árboles. Cada neurona se conecta con «miles de otras» a través de sinapsis. La electricidad corre a lo largo del tronco de cada neurona, saltando a través de las sinapsis para activar la actividad en las neuronas cercanas. Aplicar este conocimiento al aprendizaje automático requiere que «lo convierta en un algoritmo». Un algoritmo, el «perceptrón», intentó modelar cómo aprende una neurona, pero no abordó las interconexiones en capas esenciales para la función cerebral. Este algoritmo funcionó matemáticamente, pero tuvo un impacto terrible en el aprendizaje automático. Debido a que los pensadores de mediados del siglo XX se centraron en las «redes neuronales», la gente concluyó incorrectamente que tendrían que «programar explícitamente» un sistema para producir inteligencia.

“Aunque es menos conocido, muchas de las tecnologías más importantes del mundo son el resultado de inventar un unificador, un mecanismo único que hace lo que antes requería muchos”.

Los conexionistas hacen «ingeniería inversa» del cerebro para crear aprendizaje automático. La «retropropagación» es su algoritmo maestro. Este enfoque compara la salida de un sistema con la salida que desea y cambia las conexiones una capa de neuronas a la vez, mejorando la salida cada vez.

3. «Evolutivos»

Estos científicos ven la «selección natural» como el motor del aprendizaje. Los evolucionistas usan la “programación genética” como su algoritmo maestro: desarrollan programas de computadora de la misma manera que los organismos evolucionan en la naturaleza. Tienen una ventaja en la creación de aprendizaje automático: la naturaleza, a través de Darwin, ya articuló su algoritmo. Los evolucionistas utilizan «un algoritmo genético» que funciona en función de «una función de aptitud», un puntaje que se otorga a los programas de acuerdo con lo bien que logran lo que los diseñadores los crearon para hacer. Los algoritmos genéticos funcionan como la «reproducción sexual», acoplando los programas más aptos y produciendo descendientes que contienen cualidades algo diferentes. Los algoritmos genéticos pueden probar múltiples hipótesis simultáneamente y sobresalir en la creación de cosas realmente nuevas.

4. «Bayesianos»

El reverendo Thomas Bayes (1701-1761) creó una ecuación para incorporar nueva evidencia a las creencias existentes. Los bayesianos reconocen la incertidumbre inherente y la incompletitud de todo conocimiento. Ven el aprendizaje como «una forma de inferencia incierta». Su desafío es separar los datos del ruido circundante y los sistemas de construcción que pueden lidiar con los elementos incompletos. Su algoritmo maestro es el «teorema de Bayes y sus derivados». El teorema de Bayes dice que debes revisar qué tan firmemente crees en una hipótesis específica cuando descubres nuevos datos. Los bayesianos ven el aprendizaje como un uso especializado de este teorema.

«Siempre que un alumno encuentra un patrón en los datos que no es realmente cierto en el mundo real, decimos que se ha sobreajustado a los datos».

Si los datos apoyan una hipótesis, le das más peso a la hipótesis. Si los datos lo contradicen, le das menos peso a la hipótesis. Las palabras no son la mejor herramienta para presentar este razonamiento, porque las personas descuidan los pasos clave en la evaluación del razonamiento. Intentar integrar varios trozos de evidencia agrega complejidad. Las personas lidian con esto comprometiendo y simplificando su proceso de evaluación hasta que sea factible. Un aprendiz automático que aplica Bayes es «un clasificador Naïve Bayes». El nombre reconoce un punto clave: el teorema de Bayes parte de “una suposición ingenua”, como la correlación de dos síntomas de la gripe. Los motores de búsqueda utilizan algoritmos como Naïve Bayes para hacer suposiciones básicas sobre los términos que la gente busca con más frecuencia.

5. «Analogizadores»

Los analizadores ven «reconocer similitudes» como algo fundamental para el aprendizaje. Su desafío es determinar cuán similares podrían ser las dos cosas comparadas mediante el uso de «la máquina de vectores de soporte», su algoritmo maestro. Si bien las «redes neuronales» desempeñaron un papel más importante en los primeros años del aprendizaje automático, la analogía ofrece posibilidades interesantes para este algoritmo maestro.

“El aprendizaje automático no determinará el futuro por sí solo, al igual que cualquier otra tecnología; es lo que decidimos hacer con él lo que cuenta y ahora tienes las herramientas para decidir «.

Los analizadores ofrecen uno de los mejores algoritmos de aprendizaje: «vecino más cercano». Esto funciona muy bien porque no hace nada. No calculas nada. Simplemente compare lo nuevo que encuentre con los registros de objetos existentes en su base de datos. Si desea que una máquina reconozca rostros, no defina «rostro». En su lugar, compare la nueva imagen con otras imágenes de rostros. Este razonamiento funciona para las recomendaciones en línea de libros o películas. Si le gusta X, puede que le guste Y. Puede modificar este sistema para dar más peso a algunas correlaciones o similitudes porque sus deseos se parecen más a los de un recomendador que a las sugerencias de otro. El problema con el algoritmo del vecino más cercano es «la maldición de la dimensionalidad». Cuantos más factores intente integrar, más difícil será utilizar este algoritmo.

Un algoritmo maestro

El aprendizaje automático es «una ciencia y una tecnología». Si el aprendizaje automático es una ciencia, alguien debe combinar sus diversas teorías. Muchos avances tecnológicos ocurren cuando alguien inventa «un unificador». Los uniformes son mecanismos únicos que combinan la función de varios objetos diferentes. Internet funciona como unificador entre diferentes redes que no pueden comunicarse directamente entre sí. Los microprocesadores son unificadores; también lo son las ordenadores y la electricidad.

«La sociedad está cambiando, un algoritmo de aprendizaje a la vez».

El Algoritmo Maestro será el unificador necesario de los modelos existentes. La creación del algoritmo maestro requiere «metaaprendizaje», es decir, aprender sobre el aprendizaje o los alumnos. El metaaprendizaje requiere ejecutar y combinar varios modelos. Para combinar diferentes alumnos rápidamente, puede ejecutar a los alumnos y contar sus resultados. Esto es «apilamiento»; tanto Netflix como Watson lo usan. Las «redes lógicas de Markov» o «MLN» pueden unificar estos diversos enfoques. Los MLN son flexibles y puede aplicarlos a cualquier función que desee. Estos alumnos pueden resolver los problemas de las cinco tribus diferentes y dar un gran paso adelante. Por ejemplo, si combina MLN con la probabilidad posterior que los bayesianos usan como una «función de evaluación» y el «descenso de gradiente» como un optimizador, tiene un aprendiz universal.

Un mundo de máquinas de aprendizaje

A medida que surja el algoritmo maestro, remodelará su mundo. Cada vez que uses una computadora y hagas lo que quieras hacer, estarás enseñando a «la computadora sobre ti». Así como muestra diferentes aspectos de sí mismo en el trabajo y en el tiempo libre, también puede elegir qué aspectos comparte con diferentes algoritmos. Tome esta decisión en función de sus objetivos para usar este algoritmo, sus funciones y los posibles efectos de que no lo comprenda.

«En pocas palabras: el aprendizaje es una carrera entre la cantidad de datos que tienes y la cantidad de hipótesis que construyes».

A medida que haya más datos disponibles sobre todos, vivirá cada vez más en una «sociedad de modelos». El algoritmo maestro desarrollará modelos cada vez más precisos de sus gustos y deseos y cómo se comparan con lo que cree que le gusta y desea. Buscará objetos, experiencias, trabajos y personas para usted y negociará en su nombre. Su «bot» examinará los argumentos de venta, comprobará los hechos y cortará la retórica persuasiva. La información actualmente distribuida en distintos sitios como Yelp o Amazon se unificará. Tus búsquedas serán más completas y objetivas.

Imagen de Gordon Johnson en Pixabay