Home Tecnología Contenido con derechos de autor de Openai’s Models ‘Memorized’, sugiere un nuevo estudio

Contenido con derechos de autor de Openai’s Models ‘Memorized’, sugiere un nuevo estudio

by internauta
0 comment


Un nuevo estudio parece prestar crédito a las acusaciones de que Operai capacitó al menos a algunos de sus modelos de IA en contenido con derechos de autor.

Operai está envuelto en trajes traídos por autores, programadores y otros titulares de derechos que acusan a la compañía de usar sus obras (libros, bases de código, etc.) para desarrollar sus modelos sin permiso. Operai ha reclamado durante mucho tiempo una defensa de uso justo, pero los demandantes en estos casos argumentan que no hay una talla en la ley de derechos de autor de los Estados Unidos para los datos de capacitación.

El estudio, que fue coautor de investigadores de la Universidad de Washington, la Universidad de Copenhague y Stanford, propone un nuevo método para identificar datos de capacitación “memorizados” por modelos detrás de una API, como OpenAi’s.

Los modelos son motores de predicción. Entrenados en muchos datos, aprenden patrones, así es como pueden generar ensayos, fotos y más. La mayoría de las salidas no son copias literales de los datos de capacitación, sino que debido a la forma en que los modelos “aprenden”, algunos inevitablemente lo son. Se ha encontrado que los modelos de imagen regurgitan las capturas de pantalla de las películas en las que fueron entrenados, mientras que los modelos de idiomas se han observado efectivamente artículos de noticias que plagiaron.

El método del estudio se basa en las palabras que los coautores llaman “alta expresa”, es decir, palabras que se destacan como poco comunes en el contexto de un cuerpo de trabajo más grande. Por ejemplo, la palabra “radar” en la oración “Jack y yo nos quedamos perfectamente quietas con el zumbido de radar” se consideraría de alta expresal porque es estadísticamente menos probable que las palabras como “motor” o “radio” que aparecen antes de “zumbar”.

Los coautores investigaron varios modelos Operai, incluidos GPT-4 y GPT-3.5, para obtener signos de memorización al eliminar las palabras de alta expresal de los fragmentos de libros de ficción y las piezas del New York Times y hacer que las modelos intenten “adivinar” qué palabras habían sido enmascaradas. Si los modelos lograron adivinar correctamente, es probable que memorizaran el fragmento durante el entrenamiento, concluyeron a los coautores.

Estudio de derechos de autor de Openai
<span class=wp element caption text>Un ejemplo de tener un modelo adivinar una palabra de alta expresal<span><span class=wp block image credits><strong>Créditos de imagen<strong>Opadai<span>

Según los resultados de las pruebas, GPT-4 mostró signos de haber memorizado porciones de libros de ficción populares, incluidos libros en un conjunto de datos que contiene muestras de libros electrónicos con derechos de autor llamados Bookmia. Los resultados también sugirieron que el modelo memorizó porciones de los artículos del New York Times, aunque a una tasa relativamente más baja.

Abhilasha Ravichander, estudiante de doctorado de la Universidad de Washington y coautora del estudio, le dijo a TechCrunch que los hallazgos arrojan luz sobre los modelos de “datos contenciosos” podrían haber sido entrenados.

“Para tener modelos de idiomas grandes que sean confiables, necesitamos tener modelos que podamos sondear, auditar y examinar científicamente”, dijo Ravichander. “Nuestro trabajo tiene como objetivo proporcionar una herramienta para sondear modelos de idiomas grandes, pero existe una necesidad real de una mayor transparencia de datos en todo el ecosistema”.

OpenAI ha abogado durante mucho tiempo para las restricciones más flexibles en el desarrollo de modelos utilizando datos con derechos de autor. Si bien la compañía tiene ciertos acuerdos de licencia de contenido y ofrece mecanismos de exclusión que permiten a los propietarios de derechos de autor marcar el contenido que preferirían que la compañía no use para fines de capacitación, ha presionado a varios gobiernos para codificar las reglas de “uso justo” en torno a los enfoques de capacitación de la IA.

You may also like

Exploramos la red para colectar la información más importante que pueda ser compartida para los intereses de los internautas.

El Blog del Internauta 2022

-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00