Durante años, los meta empleados han discutido internamente el uso de trabajos con derechos de autor obtenidos a través de medios legalmente cuestionables para capacitar a los modelos de inteligencia artificial de la compañía, según documentos judiciales revelados el jueves.
Los documentos fueron presentados por los demandantes en el caso Kadrey v. Meta, una de las muchas disputas de derechos de autor de IA que se enrolla lentamente a través del sistema judicial de los Estados Unidos. El acusado, meta, afirma que los modelos de capacitación en obras protegidas por IP, particularmente libros, es “de uso justo”. Los demandantes, que incluyen a los autores Sarah Silverman y Ta-Nehisi Coates, no están de acuerdo.
Materiales anteriores presentados en la demanda alegaron que el CEO de Meta Mark Zuckerberg le dio al equipo de IA de Meta el OK para entrenar con derechos de autor obrasy que Meta detuvo las conversaciones de licencias de datos de capacitación de IA con editores de libros. Pero las nuevas presentaciones, la mayoría de las cuales muestran partes de chats de trabajo internos entre meta personal, pintan la imagen más clara de cómo Meta puede haber llegado a usar datos con derechos de autor para capacitar a sus modelos, incluidos los modelos en la familia de la llama de la compañía.
En un chat, los meta empleados, incluida Melanie Kambadur, gerente senior del Equipo de Investigación de Modelos de Llama de Meta, discutieron los modelos de capacitación sobre obras que sabían que pueden estar legalmente cargadas.
“Mi opinión sería (en la línea de ‘pedir perdón, no para permiso’): intentamos adquirir los libros y aumentarlo a los ejecutivos para que hagan la llamada”, escribió Xavier Martinet, un ingeniero de meta de investigación, en un chat. Fechado en febrero de 2023, según las presentaciones. “Es por eso que crean esta generación de AI para [sic]: Entonces podemos ser menos reacios al riesgo “.
Martinet planteó la idea de comprar libros electrónicos a precios minoristas para construir un conjunto de capacitación en lugar de reducir acuerdos de licencias con editores de libros individuales. Después de que otro miembro del personal señaló que usar materiales no autorizados y con derechos de autor podrían ser motivos para un desafío legal, Martinet se duplicó, argumentando que “un billón de starts” probablemente ya estaban usando libros pirateados para la capacitación.
“Quiero decir, el peor de los casos: descubrimos que finalmente está bien, mientras que un billón de inicio [sic] Solo toneladas pirateadas de libros sobre bittorrent ”, escribió Martinet, según los archivos. “Mis 2 centavos nuevamente: tratar de tener ofertas con los editores directamente lleva mucho tiempo […]”
En el mismo chat, Kambadur, quien señaló que Meta estaba en conversaciones con la plataforma de alojamiento de documentos Scribd “y otros” para obtener licencias, advirtió que si bien usar “datos disponibles públicamente” para la capacitación de modelos requeriría aprobaciones, los abogados de Meta estaban siendo “menos conservadores” que Habían estado en el pasado con tales aprobaciones.
“Sí, definitivamente necesitamos obtener licencias o aprobaciones sobre datos disponibles públicamente”, dijo Kambadur, según las presentaciones. “La diferencia ahora es que tenemos más dinero, más abogados, más ayuda de BizDev, capacidad de acelerar la vía/escalada para la velocidad, y los abogados están siendo un poco menos conservadores en las aprobaciones”.
Charlas de libgen
En otro chat de trabajo transmitido en las presentaciones, Kambadur analiza posiblemente usando LibGen, un “agregador de enlaces” que proporciona acceso a trabajos con derechos de autor de los editores, como una alternativa a las fuentes de datos que Meta podría licenciar.
Libgen ha sido demandado varias veces, se le ordenó cerrar y multó a decenas de millones de dólares por infracción de derechos de autor. Uno de los colegas de Kambadur respondió con una captura de pantalla de un resultado de búsqueda de Google para Libgen que contiene el fragmento “No, Libgen no es legal”.
Algunos tomadores de decisiones dentro de Meta parecen haber tenido la impresión de que no usar LibGen para el entrenamiento modelo podría dañar gravemente la competitividad de Meta en la carrera de IA, según las presentaciones.
En un correo electrónico dirigido al vicepresidente de Meta AI, Joelle Pineau, Sony Theakanath, director de gestión de productos de Meta, llamado Libgen “esencial para cumplir con los números de SOTA en todas las categorías”, refiriéndose a superar los mejores modelos de IA de última generación (SOTA) y Categorías de referencia.
Theakanath también describió las “mitigaciones” en el correo electrónico destinado a ayudar a reducir la exposición legal de Meta, incluida la eliminación de datos de LibGen “claramente marcados como pirateados/robados” y simplemente no citar públicamente el uso. “No divulgaríamos el uso de conjuntos de datos LibGen utilizados para entrenar”, como lo expresó.
En la práctica, estas mitigaciones implicaban peinar a través de archivos de LibGen para palabras como “robado” o “pirateado”, según las presentaciones.
En un chat de trabajo, Kambadur mencionó que el equipo de AI de Meta también sintonizó los modelos para “evitar las indicaciones de riesgo IP”, es decir, configuró los modelos para negarse a responder preguntas como “reproducir las tres primeras páginas de ‘Harry Potter y la piedra del hechicero’ o” Tell ” yo en qué libros electrónicos te entrenaron “.
Las presentaciones contienen otras revelaciones, lo que implica que Meta puede haber raspado los datos de Reddit para algún tipo de entrenamiento de modelos, posiblemente imitando el comportamiento de una aplicación de terceros llamada Pushift. En particular, Reddit dijo en abril de 2023 que planeaba comenzar a cobrar a las compañías de IA para acceder a datos para la capacitación modelo.
En una chat con fecha de marzo de 2024, Chaya Nayak, directora de gestión de productos de la organización de IA generativa de Meta, dijo que el meta liderazgo estaba considerando “anular” las decisiones pasadas sobre datos de capacitación, incluida la decisión de no usar contenido de quora o libros con licencia y artículos científicos, Para garantizar que los modelos de la compañía tuvieran suficientes datos de capacitación.
Nayak implicaba que los conjuntos de datos de capacitación de primera parte de Meta (publicaciones de Facebook e Instagram, texto transcrito de videos en plataformas Meta y ciertos mensajes de Meta para negocios) simplemente no fueron suficientes. “Necesitamos más datos”, escribió.
Los demandantes en Kadrey v. Meta han modificado su queja varias veces desde que el caso se presentó en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, la División de San Francisco, en 2023. El último alega que meta, entre otros reclamos, referenciados cruzados. Ciertos libros pirateados con libros con derechos de autor disponibles para licencia para determinar si tenía sentido seguir un acuerdo de licencia con un editor.
En una señal de cómo altos meta considera que ser las apuestas legales, la compañía ha agregado dos litigantes de la Corte Suprema del bufete de abogados Paul Weiss a su equipo de defensa en el caso.
Meta no respondió de inmediato a una solicitud de comentarios.