Home Tecnología Los datos de entrenamiento de IA tienen un precio que solo las grandes tecnologías pueden pagar

Los datos de entrenamiento de IA tienen un precio que solo las grandes tecnologías pueden pagar

by internauta
0 comment


Los datos están en el corazón de los sistemas avanzados de inteligencia artificial de hoy en día, pero cuestan cada vez más, lo que los hace fuera del alcance de todas, excepto de las empresas tecnológicas más ricas.

El año pasado, James Betker, investigador de OpenAI, escribió una publicación en su blog personal sobre la naturaleza de los modelos generativos de IA y los conjuntos de datos en los que se entrenan. En él, Betker afirmaba que los datos de entrenamiento (no el diseño, la arquitectura o cualquier otra característica de un modelo) eran la clave para sistemas de IA cada vez más sofisticados y capaces.

“Si se entrena con el mismo conjunto de datos durante un tiempo suficiente, prácticamente todos los modelos convergen al mismo punto”, escribió Betker.

¿Tiene razón Betker? ¿Son los datos de entrenamiento el mayor determinante de lo que puede hacer un modelo, ya sea responder una pregunta, dibujar manos humanas o generar un paisaje urbano realista?

Es ciertamente plausible.

maquinas estadisticas

Los sistemas de IA generativa son básicamente modelos probabilísticos: una enorme pila de estadísticas. Adivinan, basándose en una gran cantidad de ejemplos, qué datos tiene más “sentido” para ubicarlos (por ejemplo, la palabra “ir” antes de “al mercado” en la oración “voy al mercado”). Parece intuitivo, entonces, que cuantos más ejemplos tenga un modelo, mejor será el rendimiento de los modelos entrenados en esos ejemplos.

“Parece que las mejoras en el rendimiento provienen de los datos”, dijo a TechCrunch Kyle Lo, científico senior de investigación aplicada en el Instituto Allen de IA (AI2), una organización sin fines de lucro de investigación de IA, “al menos una vez que tienes una configuración de entrenamiento estable”. .”

Lo dio el ejemplo de Llama 3 de Meta, un modelo de generación de texto lanzado a principios de este año, que supera al propio modelo OLMo de AI2 a pesar de ser arquitectónicamente muy similar. Llama 3 fue entrenado con muchos más datos que OLMo, lo que Lo cree explica su superioridad en muchos puntos de referencia populares de IA.

(Señalaré aquí que los puntos de referencia que se utilizan ampliamente en la industria de la IA hoy en día no son necesariamente el mejor indicador del rendimiento de un modelo, pero fuera de las pruebas cualitativas como la nuestra, son una de las pocas medidas que tenemos para seguir.)

Esto no quiere decir que entrenar en conjuntos de datos exponencialmente más grandes sea un camino seguro hacia modelos exponencialmente mejores. Los modelos operan según un paradigma de “basura entra, basura sale”, señala Lo, por lo que la conservación y la calidad de los datos son muy importantes, tal vez más que la simple cantidad.

“Es posible que un modelo pequeño con datos cuidadosamente diseñados supere a un modelo grande”, añadió. “Por ejemplo, el Falcon 180B, un modelo grande, ocupa el puesto 63 en el punto de referencia LMSYS, mientras que Llama 2 13B, un modelo mucho más pequeño, ocupa el puesto 56”.

En una entrevista con TechCrunch en octubre pasado, el investigador de OpenAI Gabriel Goh dijo que las anotaciones de mayor calidad contribuyeron enormemente a la calidad de imagen mejorada en DALL-E 3, el modelo de texto a imagen de OpenAI, en comparación con su predecesor DALL-E 2. “Creo esta es la principal fuente de las mejoras”, dijo. “Las anotaciones de texto son mucho mejores de lo que eran [with DALL-E 2] — ni siquiera es comparable”.

Muchos modelos de IA, incluidos DALL-E 3 y DALL-E 2, se entrenan haciendo que anotadores humanos etiqueten los datos para que un modelo pueda aprender a asociar esas etiquetas con otras características observadas de esos datos. Por ejemplo, un modelo que recibe muchas imágenes de gatos con anotaciones para cada raza eventualmente “aprenderá” a asociar términos como rabicorto y cabello corto con sus rasgos visuales distintivos.

Mal comportamiento

A expertos como Lo les preocupa que el creciente énfasis en conjuntos de datos de entrenamiento grandes y de alta calidad centralice el desarrollo de la IA en los pocos actores con presupuestos de miles de millones de dólares que pueden permitirse adquirir estos conjuntos. Una innovación importante en datos sintéticos o arquitectura fundamental podría alterar el status quo, pero ninguna de las dos parece estar en el horizonte cercano.

“En general, las entidades que controlan el contenido que es potencialmente útil para el desarrollo de la IA están incentivadas a guardar bajo llave sus materiales”, dijo Lo. “Y a medida que el acceso a los datos se cierra, básicamente estamos bendiciendo a algunos de los primeros en la adquisición de datos y subiendo la escalera para que nadie más pueda acceder a los datos para ponerse al día”.

De hecho, aunque la carrera por obtener más datos de entrenamiento no ha llevado a comportamientos poco éticos (y tal vez incluso ilegales) como agregar en secreto contenido protegido por derechos de autor, ha recompensado a los gigantes tecnológicos con mucho dinero para gastar en licencias de datos.

Los modelos de IA generativa, como los de OpenAI, se entrenan principalmente con imágenes, texto, audio, vídeos y otros datos (algunos con derechos de autor) procedentes de páginas web públicas (incluidas, problemáticamente, las generadas por IA). Las OpenAI del mundo afirman que el uso legítimo las protege de represalias legales. Muchos titulares de derechos no están de acuerdo, pero, al menos por ahora, no pueden hacer mucho para impedir esta práctica.

Hay muchísimos ejemplos de proveedores de IA generativa que adquieren conjuntos de datos masivos a través de medios cuestionables para entrenar sus modelos. Según se informa, OpenAI transcribió más de un millón de horas de videos de YouTube sin la bendición de YouTube, o la bendición de los creadores, para alimentar su modelo insignia GPT-4. Google amplió recientemente sus términos de servicio en parte para poder acceder a Google Docs públicos, reseñas de restaurantes en Google Maps y otro material en línea para sus productos de inteligencia artificial. Y se dice que Meta ha considerado arriesgarse a demandas judiciales para entrenar sus modelos en contenido protegido por propiedad intelectual.

Mientras tanto, las empresas grandes y pequeñas dependen de trabajadores de países del tercer mundo a los que se les paga sólo unos pocos dólares por hora para crear anotaciones para los conjuntos de capacitación. Algunos de estos anotadores, empleados por empresas gigantescas como Scale AI, trabajan días y días para completar tareas que los exponen a representaciones gráficas de violencia y derramamiento de sangre sin ningún beneficio o garantía de trabajos futuros.

Costo creciente

En otras palabras, incluso los acuerdos de datos más sinceros no están fomentando exactamente un ecosistema de IA generativa abierto y equitativo.

OpenAI ha gastado cientos de millones de dólares en licencias de contenido de editores de noticias, bibliotecas de medios de archivo y más para entrenar sus modelos de IA, un presupuesto mucho mayor que el de la mayoría de los grupos de investigación académicos, organizaciones sin fines de lucro y nuevas empresas. Meta ha llegado incluso a sopesar la adquisición de la editorial Simon & Schuster por los derechos de extractos de libros electrónicos (finalmente, Simon & Schuster vendió a la firma de capital privado KKR por 1.620 millones de dólares en 2023).

Dado que se espera que el mercado de datos de entrenamiento de IA crezca de aproximadamente 2.500 millones de dólares actuales a cerca de 30.000 millones de dólares dentro de una década, los intermediarios y plataformas de datos se apresuran a cobrar mucho dinero, en algunos casos a pesar de las objeciones de sus bases de usuarios.

La biblioteca de medios de stock Shutterstock ha firmado acuerdos con proveedores de IA que oscilan entre 25 y 50 millones de dólares, mientras que Reddit afirma haber ganado cientos de millones con la concesión de licencias de datos a organizaciones como Google y OpenAI. Pocas plataformas con abundantes datos acumulados orgánicamente a lo largo de los años no lo he hecho Al parecer, firmó acuerdos con desarrolladores de IA generativa, desde Photobucket hasta Tumblr y el sitio de preguntas y respuestas Stack Overflow.

Lo que hay que vender son los datos de las plataformas, al menos dependiendo de los argumentos legales en los que uno crea. Pero en la mayoría de los casos, los usuarios no ven ni un centavo de las ganancias. Y está perjudicando a la comunidad de investigación de IA en general.

“Los actores más pequeños no podrán permitirse estas licencias de datos y, por lo tanto, no podrán desarrollar ni estudiar modelos de IA”, afirmó Lo. “Me preocupa que esto pueda conducir a una falta de escrutinio independiente de las prácticas de desarrollo de la IA”.

Esfuerzos independientes

Si hay un rayo de sol en la penumbra, son los pocos esfuerzos independientes y sin fines de lucro para crear conjuntos de datos masivos que cualquiera pueda usar para entrenar un modelo de IA generativa.

EleutherAI, un grupo de investigación de base sin fines de lucro que comenzó como un colectivo de Discord en 2020, está trabajando con la Universidad de Toronto, AI2 e investigadores independientes para crear The Pile v2, un conjunto de miles de millones de pasajes de texto obtenidos principalmente del dominio público. .

En abril, la startup de inteligencia artificial Hugging Face lanzó FineWeb, una versión filtrada de Common Crawl, el conjunto de datos homónimo mantenido por la organización sin fines de lucro Common Crawl, compuesto por miles de millones de páginas web, que según Hugging Face mejora el rendimiento del modelo en muchos puntos de referencia.

Algunos esfuerzos por publicar conjuntos de datos de entrenamiento abiertos, como los conjuntos de imágenes del grupo LAION, se han topado con derechos de autor, privacidad de datos y otros desafíos éticos y legales igualmente serios. Pero algunos de los curadores de datos más dedicados se han comprometido a hacerlo mejor. The Pile v2, por ejemplo, elimina material problemático protegido por derechos de autor que se encuentra en su conjunto de datos progenitor, The Pile.

La pregunta es si alguno de estos esfuerzos abiertos puede esperar mantener el ritmo de las Big Tech. Mientras la recopilación y conservación de datos siga siendo una cuestión de recursos, la respuesta probablemente sea no, al menos no hasta que algún avance en la investigación nivele el campo de juego.

You may also like

Exploramos la red para colectar la información más importante que pueda ser compartida para los intereses de los internautas.

El Blog del Internauta 2022

-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00