Un análisis de Epoch AI, un instituto de investigación de IA sin fines de lucro, sugiere que la industria de la IA puede no ser capaz de obtener ganancias de rendimiento masivo de los modelos de IA de razonamiento durante mucho más tiempo. Tan pronto como dentro de un año, el progreso de los modelos de razonamiento podría disminuir, según los hallazgos del informe.
Los modelos de razonamiento como el O3 de Openai han llevado a ganancias sustanciales en los puntos de referencia de IA en los últimos meses, particularmente los puntos de referencia que miden las matemáticas y las habilidades de programación. Los modelos pueden aplicar más computación a los problemas, lo que puede mejorar su rendimiento, con la desventaja de que tardan más que los modelos convencionales para completar las tareas.
Los modelos de razonamiento se desarrollan primero en capacitar un modelo convencional en una cantidad masiva de datos, luego aplicando una técnica llamada aprendizaje de refuerzo, lo que efectivamente le da al modelo “retroalimentación” sobre sus soluciones a problemas difíciles.
Hasta ahora, Frontier AI Labs como OpenAI no ha aplicado una enorme cantidad de potencia informática a la etapa de aprendizaje de refuerzo de la capacitación del modelo de razonamiento, según Epoch.
Eso está cambiando. Operai ha dicho que aplicó alrededor de 10 veces más informática para entrenar O3 que su predecesor, O1, y Epoch especula que la mayor parte de esta computación estaba dedicada al aprendizaje de refuerzo. Y el investigador de Operai, Dan Roberts, reveló recientemente que los planes futuros de la compañía requieren priorizar el aprendizaje de refuerzo para usar mucho más poder informático, incluso más que para la capacitación de modelo inicial.
Pero todavía hay un límite superior a la cantidad de computación que se puede aplicar al aprendizaje de refuerzo, por época.

Josh You, analista de Epoch y autor del análisis, explica que las ganancias de rendimiento del entrenamiento de modelos de IA estándar actualmente se cuartan cada año, mientras que las ganancias de rendimiento del aprendizaje de refuerzo están creciendo diez veces cada 3-5 meses. El progreso del entrenamiento de razonamiento “probablemente convergerá con la frontera general para 2026”, continúa.
El análisis de Epoch hace una serie de supuestos y se basa en parte en los comentarios públicos de los ejecutivos de la compañía de IA. Pero también defiende que los modelos de razonamiento de escala pueden ser desafiantes por razones además de la informática, incluidos los altos costos generales para la investigación.
“Si se requiere un costo de sobrecarga persistente para la investigación, los modelos de razonamiento podrían no escalar tan lejos como se esperaba”, escribe. “La escala rápida de cómputo es potencialmente un ingrediente muy importante en el progreso del modelo de razonamiento, por lo que vale la pena rastrear esto de cerca”.
Es probable que cualquier indicación de que los modelos de razonamiento puedan alcanzar algún tipo de límite en el futuro cercano preocupen a la industria de la IA, que ha invertido enormes recursos en desarrollo de este tipo de modelos. Ya, los estudios han demostrado que los modelos de razonamiento, que pueden ser increíblemente costosos de ejecutar, tienen defectos graves, como una tendencia a alucinar más que ciertos modelos convencionales.