El CEO de Anthrope quiere abrir la caja negra de los modelos de IA para 2027

El CEO de Anthrope, Dario Amodei, publicó un ensayo el jueves que destaca cómo los poco investigadores entienden sobre el funcionamiento interno de los principales modelos de IA del mundo. Para abordar eso, AModei estableció un objetivo ambicioso para que el antrópico detecte de manera confiable la mayoría de los problemas del modelo de IA para 2027.

Amodei reconoce el desafío por delante. En “la urgencia de la interpretabilidad”, el CEO dice que Anthrope ha realizado avances tempranos al rastrear cómo los modelos llegan a sus respuestas, pero enfatiza que se necesita mucha más investigación para decodificar estos sistemas a medida que se vuelven más potentes.

“Estoy muy preocupado por la implementación de tales sistemas sin un mejor manejo de la interpretabilidad”, escribió Amodei en el ensayo. “Estos sistemas serán absolutamente fundamentales para la economía, la tecnología y la seguridad nacional, y serán capaces de tanta autonomía que considero que es básicamente inaceptable que la humanidad ignore totalmente cómo funcionan”.

Anthrope es una de las compañías pioneras en la interpretabilidad mecanicista, un campo que tiene como objetivo abrir la caja negra de los modelos de IA y comprender por qué toman las decisiones que toman. A pesar de las rápidas mejoras de rendimiento de los modelos de IA de la industria tecnológica, todavía tenemos relativamente poca idea de cómo llegan estos sistemas a las decisiones.

Por ejemplo, Operai lanzó recientemente nuevos modelos de AI de razonamiento, O3 y O4-Mini, que funcionan mejor en algunas tareas, pero también alucinan más que sus otros modelos. La compañía no sabe por qué está sucediendo.

“Cuando un sistema de IA generativo hace algo, como resumir un documento financiero, no tenemos idea, a un nivel específico o preciso, por qué toma las decisiones que hace: por qué elige ciertas palabras sobre otras, o por qué ocasionalmente comete un error a pesar de ser preciso”, escribió Amodei en el ensayo.

En el ensayo, AmoDei señala que el cofundador antrópico Chris Olah dice que los modelos de IA se “cultivan más de lo que están construidos”. En otras palabras, los investigadores de IA han encontrado formas de mejorar la inteligencia del modelo de IA, pero no saben por qué.

En el ensayo, Amodei dice que podría ser peligroso llegar a AGI, o como él lo llama, “un país de genios en un centro de datos”, sin comprender cómo funcionan estos modelos. En un ensayo anterior, AmoDei afirmó que la industria tecnológica podría alcanzar ese hito para 2026 o 2027, pero cree que estamos mucho más lejos de comprender completamente estos modelos de IA.

A largo plazo, Amodei dice que Anthrope le gustaría, esencialmente, realizar “escaneos cerebrales” o “resonancias magnéticas” de modelos de IA de última generación. Estos chequeos ayudarían a identificar una amplia gama de problemas en los modelos de IA, incluidas sus tendencias para mentir o buscar poder u otra debilidad, dice. Esto podría tardar entre cinco y 10 años en lograr, pero estas medidas serán necesarias para probar e implementar los futuros modelos de IA de Anthrope, agregó.

Anthrope ha realizado algunos avances de investigación que le han permitido comprender mejor cómo funcionan sus modelos de IA. Por ejemplo, la compañía recientemente encontró formas de rastrear las vías de pensamiento de un modelo de IA a través de lo que la compañía llama, circuitos. Anthrope identificó un circuito que ayuda a los modelos de IA a comprender qué ciudades estadounidenses se encuentran en qué Estados Unidos. La compañía solo ha encontrado algunos de estos circuitos, pero estima que hay millones dentro de los modelos de IA.

Anthrope ha estado invirtiendo en la investigación de interpretabilidad en sí misma y recientemente realizó su primera inversión en una startup trabajando en la interpretabilidad. Si bien la interpretabilidad se ve en gran medida como un campo de investigación de seguridad hoy en día, AmoDei señala que, eventualmente, explicando cómo los modelos de IA llegan a sus respuestas podrían presentar una ventaja comercial.

En el ensayo, AmoDei pidió a Openai y Google Deepmind que aumente sus esfuerzos de investigación en el campo. Más allá del empujón amistoso, el CEO de Anthrope solicitó a los gobiernos que impongan regulaciones de “toque de luz” para fomentar la investigación de interpretabilidad, como los requisitos para que las empresas revelen sus prácticas de seguridad y seguridad. En el ensayo, AmoDei también dice que Estados Unidos debería poner controles de exportación en chips a China, para limitar la probabilidad de una carrera de IA global fuera de control.

Anthrope siempre se ha destacado de Openai y Google por su enfoque en la seguridad. Mientras que otras compañías tecnológicas retrocedieron en la controvertida factura de seguridad de IA de California, SB 1047, Anthrope emitió un modesto apoyo y recomendaciones para el proyecto de ley, lo que habría establecido estándares de informes de seguridad para los desarrolladores de modelos de IA fronteriza.

En este caso, Anthrope parece estar presionando por un esfuerzo de toda la industria para comprender mejor los modelos de IA, no solo aumentar sus capacidades.

El CEO de Anthrope quiere abrir la caja negra de los modelos de IA para 2027

Elección del Editor

Queue

El CEO de Anthrope quiere abrir la caja negra de los modelos de IA para 2027

Slate Auto respaldado por Bezos debuta la camioneta analógica EV que es decididamente anti-Tesla

Los números de búsqueda de IA de Google están creciendo, y eso es por diseño

You may also like

Elección del Editor

Queue