¿QUÉ PASA SI IA NO MEJORA MUCHO MÁS QUE ESTO?
GPT-5, una nueva versión de OpenAI, es el último producto que sugiere que el progreso en los modelos de lenguaje grandes se ha estancado.

Gran parte de la euforia y el temor que giran en torno a las tecnologías de inteligencia artificial de hoy en día se remontan a enero de 2020, cuando un equipo de investigadores de OpenAI publicó un informe de treinta páginas titulado “Escalado de las leyes para modelos de lenguaje neuronal”. El equipo fue dirigido por el investigador de IA Jared Kaplan, e incluyó a Dario Amodei, quien ahora es el C.E.O. de Anthropic. Investigaron una pregunta bastante nerd: ¿Qué pasa con el rendimiento de los modelos de lenguaje cuando aumentas su tamaño y la intensidad de su entrenamiento?
En ese entonces, muchos expertos en aprendizaje automático pensaban que, después de haber alcanzado un cierto tamaño, los modelos de lenguaje comenzarían efectivamente a memorizar las respuestas a sus preguntas de entrenamiento, lo que los haría menos útiles una vez desplegados. Pero el documento de OpenAI argumentó que estos modelos solo mejorarían a medida que crecieran, y de hecho que tales mejoras podrían seguir una ley de poder, una curva agresiva que se asemeja a un palo de hockey. La implicación: si sigues construyendo modelos de lenguaje más grandes y los entrenas en conjuntos de datos más grandes, comenzarán a ser sorprendentemente buenos. Unos meses después del documento, OpenAI pareció validar la ley de escalado al lanzar GPT-3, que era diez veces más grande, y mucho mejor, que su predecesor, GPT-2.
De repente, la idea teórica de la inteligencia general artificial, que funciona tan bien o mejor que los humanos en una amplia variedad de tareas, parecía tentadoramente cercana. Si se mantiene la ley de escalado, las empresas de A.I. podrían lograr A.G.I. invertiendo más dinero y potencia informática en los modelos de lenguaje. En un año, Sam Altman, el director ejecutivo de OpenAI, publicó una entrada en el blog titulada “La ley de Moore para todo”, que argumentaba que la IA se hará cargo “y más del trabajo que la gente hace ahora” y creará una riqueza inimaginable para los propietarios de capital. “Esta revolución tecnológica es imparable”, escribió. “El mundo cambiará tan rápida y drásticamente que se necesitará un cambio igualmente drástico en la política para distribuir esta riqueza y permitir que más personas sigan la vida que desean”.
Es difícil exagerar cómo la comunidad de I.A. llegó a creer que inevitablemente se abría camino hacia A.G.I. En 2022, Gary Marcus, un empresario de IA y profesor emérito de psicología y ciencias neuronales en la Nueva Y.U., rechazó el artículo de Kaplan, señalando que “las llamadas leyes de escalado no son leyes universales como la gravedad, sino más bien meras observaciones que podrían no durar para siempre”. La respuesta negativa fue feroz y rápida. “Ningún otro ensayo que haya escrito ha sido ridiculizado por tanta gente, o tanta gente famosa, desde Sam Altman y Greg Brockton hasta Yann LeCun y Elon Musk”, reflexionó Marcus más tarde. Recientemente me dijo que sus comentarios esencialmente lo “excomulgan” del mundo del aprendizaje automático. Pronto, ChatGPT llegaría a cien millones de usuarios más rápido que cualquier servicio digital en la historia; en marzo de 2023, la próxima versión de OpenAI, GPT-4, saltó tan lejos en la curva de escalado que inspiró un documento de investigación de Microsoft titulado “Sparks of Artificial General Intelligence”. Durante el año siguiente, el gasto de capital de riesgo en IA aumentó un ochenta por ciento.
Sin embargo, después de eso, el progreso parecía ralentizarse. OpenAI no dio a conocer un nuevo modelo de éxito de taquilla durante más de dos años, sino que se centró en lanzamientos especializados que se volvieron difíciles de seguir para el público en general. Algunas voces dentro de la industria comenzaron a preguntarse si la ley de escalado de IA estaba empezando a vacilar. “La década de 2010 fue la era de la ampliación, ahora estamos de vuelta en la era de la maravilla y el descubrimiento una vez más”, dijo Ilya Sutskever, una de las fundadoras de la compañía, a Reuters en noviembre. “Todo el mundo está buscando lo siguiente”. Un artículo contemporáneo de TechCrunch resumió el estado de ánimo general: “Todo el mundo ahora parece estar admitiendo que no puedes usar más computación y más datos mientras preentrenas a grandes modelos de lenguaje y esperas que se conviertan en algún tipo de dios digital omnisciente”. Pero tales observaciones fueron ahogadas en gran medida por la retórica generadora de titulares de otros líderes de IA. “La IA está empezando a mejorar que los humanos en casi todas las tareas intelectuales”, dijo Amodei recientemente a Anderson Cooper. En una entrevista con Axios, predijo que la mitad de los trabajos de cuello blanco de nivel básico podrían ser “borrados” en los próximos uno a cinco años. Este verano, tanto Altman como Mark Zuckerberg, de Meta, afirmaron que sus empresas estaban cerca de desarrollar superinteligencia.
Luego, la semana pasada, OpenAI finalmente lanzó GPT-5, que muchos esperaban que diera el siguiente salto significativo en las capacidades de IA. Los primeros críticos encontraron algunas características que les gustaban. Cuando un popular YouTuber de tecnología, Mrwhosetheboss, le pidió que creara un juego de ajedrez que usara Pokémon como piezas, obtuvo un resultado significativamente mejor que cuando usó GPT-o4-mini-high, un modelo de codificación líder en la industria; también descubrió que GPT-5 podía escribir un script más efectivo para su canal de YouTube que GPT-4o. Mrwhosetheboss estaba particularmente entusiasmado de que GPT-5 enrute automáticamente las consultas a un modelo adecuado para la tarea, en lugar de requerir que los usuarios elijan manualmente el modelo que quieren probar. Sin embargo, también aprendió que GPT-4o tuvo claramente más éxito en la generación de una miniatura de YouTube y una invitación a una fiesta de cumpleaños, y no tuvo problemas para inducir a GPT-5 a inventar hechos falsos. En cuestión de horas, los usuarios comenzaron a expresar su decepción con el nuevo modelo en el subreddit r/ChatGPT. Una publicación lo llamó el “pedazo de basura más grande, incluso como usuario de pago”. En una sesión de Ask Me Anything (A.M.A.), Altman y otros ingenieros de OpenAI se encontraron a la defensiva, abordando las quejas. Marcus resumió el lanzamiento como “retrasado, exagerado y decepcionante”.
Después del lanzamiento de GPT-5, se ha vuelto más difícil tomar predicciones grandilocuentes sobre la IA al pie de la letra, y las opiniones de críticos como Marcus parecen cada vez más moderadas. Tales voces argumentan que esta tecnología es importante, pero no está preparada para transformar drásticamente nuestras vidas. Nos desafían a considerar una visión diferente para el futuro cercano, una en la que la IA podría no ser mucho mejor que esta.
OpenAI no quería esperar casi dos años y medio para lanzar GPT-5. Según The Information, para la primavera de 2024, Altman estaba diciendo a los empleados que su próximo modelo principal, con nombre en clave Orion, sería significativamente mejor que el GPT-4. En el otoño, sin embargo, quedó claro que los resultados fueron decepcionantes. “Si bien el rendimiento de Orion terminó superando al de los modelos anteriores”, informó The Information en noviembre, “el aumento en la calidad fue mucho menor en comparación con el salto entre GPT-3 y GPT-4”.
El fracaso de Orión ayudó a cimentar el temor progresivo dentro de la industria de que la ley de escalado de IA no fuera una ley después de todo. Si la construcción de modelos cada vez más grandes estuviera produciendo rendimientos decrecientes, las empresas tecnológicas necesitarían una nueva estrategia para fortalecer sus productos de IA. Pronto se decidieron por lo que podría describirse como “mejoras posteriores al entrenamiento”. Los principales modelos de lenguajes grandes pasan por un proceso llamado pre-entrenamiento en el que esencialmente digieren todo Internet para volverse inteligentes. Pero también es posible refinar los modelos más adelante, para ayudarles a hacer un mejor uso del conocimiento y las habilidades que han absorbido. Una técnica posterior al entrenamiento es aplicar una herramienta de aprendizaje automático, aprendizaje de refuerzo, para enseñar a un modelo preentrenado a comportarse mejor en tipos específicos de tareas. Otro permite a un modelo pasar más tiempo informático generando respuestas a consultas exigentes.
Una metáfora útil aquí es un coche. Se puede decir que el preentrenamiento produce el vehículo; el post-entrenamiento lo mejora. En el documento de la ley de escalado, Kaplan y sus coautores predijeron que a medida que se amplía el proceso de pre-entrenamiento, se aumenta la potencia de los coches que se producen; si el GPT-3 era un sedán, el GPT-4 era un coche deportivo. Sin embargo, una vez que esta progresión vaciló, la industria volvió su atención a ayudar a los coches que ya habían construido a funcionar mejor. Las técnicas posteriores al entrenamiento convirtieron a los ingenieros en mecánicos.
Los líderes tecnológicos se apresuraron a expresar la esperanza de que un enfoque posterior a la capacitación mejorara sus productos tan rápido como lo había hecho el escalado tradicional. “Estamos viendo la aparición de una nueva ley de escalado”, dijo Satya Nadella, el C.E.O. de Microsoft, en una conferencia el otoño pasado. La capitalista de riesgo Anjney Midha habló de manera similar de una “segunda era de las leyes de escalada”. En diciembre, OpenAI lanzó o1, que utilizaba técnicas posteriores al entrenamiento para mejorar el modelo en el razonamiento paso a paso y en la escritura de código informático. Pronto la compañía había presentado o3-mini, o3-mini-high, o4-mini, o4-mini-high y o3-pro, cada uno de los cuales se mejoró con una combinación a medida de técnicas posteriores al entrenamiento.
Otras empresas de IA persiguieron un pivote similar. Anthropic experimentó con mejoras posteriores al entrenamiento en un lanzamiento de febrero de Claude 3.7 Sonnet, y luego los convirtió en el centro de su familia de modelos Claude 4. La xAI de Elon Musk continuó persiguiendo una estrategia de escalado hasta su lanzamiento invernal de Grok 3, que estaba preentrenado en unos asombrosos chips H100 G.U. 100,000, muchas veces la potencia computacional que supuestamente se utilizó para entrenar GPT-4. Cuando Grok 3 no superó significativamente a sus competidores, la compañía adoptó enfoques posteriores al entrenamiento para desarrollar Grok 4. GPT-5 encaja perfectamente en esta trayectoria. Es menos un modelo completamente nuevo que un intento de refinar productos postentrenados recientes e integrarlos en un solo paquete.
¿Este enfoque posterior al entrenamiento nos ha puesto de nuevo en el camino hacia algo como A.G.I.? El anuncio de OpenAI para GPT-5 incluyó más de dos docenas de tablas y gráficos, sobre medidas como “Edición de código multilingüe Aider Polyglot” y “Razonamiento espacial multimodal ERQA”, para cuantificar cuánto supera el modelo a sus predecesores. Algunos puntos de referencia de IA capturan avances útiles. GPT-5 obtuvo una puntuación más alta que los modelos anteriores en los puntos de referencia centrados en la programación, y las primeras revisiones parecían estar de acuerdo en que produce un mejor código. Los nuevos modelos también escriben de una manera más natural y fluida, y esto también se refleja en los puntos de referencia. Pero estos cambios ahora se sienten estrechos, más como las mejoras específicas que esperarías de una actualización de software que como la amplia expansión de las capacidades en avances anteriores de IA generativa. No necesitabas un gráfico de barras para reconocer que GPT-4 se había adelantado a cualquier cosa que hubiera llegado antes.
Es posible que otros puntos de referencia no midan lo que afirman. A partir del lanzamiento de o1, las empresas de I.I. han promocionado el progreso en las medidas de razonamiento paso a paso. Pero en junio, los investigadores de Apple publicaron un artículo titulado “La ilusión del pensamiento”, que encontraron que los “grandes modelos de razonamiento” de vanguardia demostraban “el colapso del rendimiento a cero” cuando la complejidad de los rompecabezas se extendía más allá de un umbral modesto. Los modelos de razonamiento, que incluyen o3-mini, el modo de “pensamiento” de Claude 3.7 Sonnet y DeepSeek-R1, “todavía no desarrollan capacidades generalizables de resolución de problemas”, escribieron los autores. La semana pasada, los investigadores de la Universidad Estatal de Arizona llegaron a una conclusión aún más contundente: lo que las empresas de IA llaman razonamiento “es un espejismo frágil que desaparece cuando se empuja más allá de las distribuciones de capacitación”. Superar estos puntos de referencia es diferente de, por ejemplo, razonar a través de los tipos de problemas diarios que enfrentamos en nuestros trabajos. “No escucho a muchas empresas que usen IA diciendo que los modelos 2025 son mucho más útiles para ellos que los modelos 2024, a pesar de que los modelos 2025 funcionan mejor en los puntos de referencia”, me dijo Marcus. Las mejoras posteriores al entrenamiento no parecen estar fortaleciendo los modelos tan a fondo como lo hizo una vez el escalado. Puede ser muy útil mejorar tu Camry, pero ninguna cantidad de ajustes lo convertirá en un Ferrari.
Recientemente le pedí a Marcus y a otros dos escépticos que predijeran el impacto de la IA generativa en la economía en los próximos años. “Este es un mercado de cincuenta mil millones de dólares, no un mercado de un billón de dólares”, me dijo Ed Zitron, un analista de tecnología que presenta el podcast “Better Offline”. Marcus estuvo de acuerdo: “Un mercado de cincuenta mil millones de dólares, tal vez cien”. La profesora de lingüística Emily Bender, coautora de una conocida crítica de los primeros modelos lingüísticos, me dijo que “los impactos dependerán de cuántos en la clase de gestión caigan en el bombo de las personas que venden esta tecnología y reequiparán sus lugares de trabajo en torno a ella”. Ella agregó: “Cuanto más suceda esto, peor estarán todos”. Tales puntos de vista han sido retratados como poco realistas, Nate Silver respondió una vez a un tuit de Ed Zitron escribiendo, “el viejo grita a las vibraciones de las nubes”, mientras que aceptamos fácilmente las visiones grandiosas de los C.E.O. de tecnología. Tal vez eso esté empezando a cambiar.
Si estos puntos de vista moderados de la IA son correctos, entonces en los próximos años las herramientas de IA harán avances constantes pero graduales. Muchas personas usarán la IA de forma regular pero limitada, ya sea para buscar información o para acelerar ciertas tareas molestas, como resumir un informe o escribir el borrador de la agenda de un evento. Ciertos campos, como la programación y la academia, cambiarán drásticamente. Una minoría de profesiones, como la actuación de voz y la redacción de redes sociales, podría desaparecer esencialmente. Pero la IA puede no interrumpir masivamente el mercado laboral, y las ideas más hiperbólicas como la superinteligencia pueden llegar a parecer poco serias.
Continuar comprando en la exageración de la IA podría traer sus propios peligros. En un artículo reciente, Zitron señaló que alrededor del treinta y cinco por ciento del valor del mercado de valores de EE. UU., y por lo tanto una gran parte de muchas carteras de jubilación, está actualmente vinculado a las llamadas empresas de tecnología Magnificent Seven. Según el análisis de Zitron, estas empresas gastaron quinientos sesenta mil millones de dólares en gastos de capital relacionados con la IA en los últimos dieciocho meses, mientras que sus ingresos de IA fueron de solo unos treinta y cinco mil millones. “Cuando miras estos números, te sientes loco”, me dijo Zitron.
Sin embargo, incluso las cifras que podríamos llamar moderados de la A.A. no creen que el público deba bajar la guardia. Marcus cree que nos equivocamos al poner tanto énfasis en la IA generativa, pero también piensa que, con nuevas técnicas, la A.G.I. todavía podría ser alcanzable desde los años veinte y treinta. Incluso si los modelos lingüísticos nunca automatizan nuestros trabajos, el renovado interés y la inversión en IA podrían conducir a soluciones más complicadas, que podrían. Mientras tanto, deberíamos usar este acargo para prepararnos para las interrupciones que aún podrían estar por llegar, elaborando regulaciones efectivas de A.I., por ejemplo, y desarrollando el incipiente campo de la ética digital.
Los apéndices del documento de la ley de escalado, de 2020, incluían una sección llamada “Caveats”, que la cobertura posterior tendió a perderse. “En la actualidad no tenemos una comprensión teórica sólida de ninguna de nuestras leyes de escalado propuestas”, escribieron los autores. “Las relaciones de escalado con el tamaño del modelo y la computación son especialmente misteriosas”. En la práctica, las leyes de escala funcionaron hasta que no lo hicieron. Toda la empresa de enseñar a las computadoras a pensar sigue siendo misteriosa. Deberíamos proceder con menos arrogancia y más cuidado. ♦︎
0 Comments