Social Network Bluesky publicó recientemente una propuesta sobre GitHub que describe nuevas opciones. Podría dar a los usuarios para indicar si quieren que sus publicaciones y datos se raspen para cosas como capacitación generativa de IA y archivo público.
El CEO Jay Graber discutió la propuesta a principios de esta semana, mientras que en el escenario en South by Southwest, pero atrajo una nueva atención el viernes por la noche, después de que lo publicó en Bluesky. Algunos usuarios reaccionaron con alarma a los planes de la compañía, que vieron como una inversión de la insistencia previa de Bluesky de que no venderá datos de usuarios a los anunciantes y no capacitará la IA en las publicaciones de los usuarios.
“¡Oh, demonios no!” El boceto de usuario escribió. “La belleza de esta plataforma era el no compartir información. Especialmente Gen ai. ¿No te cuevas ahora “?
Graber respondió que las compañías generativas de IA “ya raspan datos públicos de toda la web”, incluso de Bluesky, ya que “todo en Bluesky es público como un sitio web es público”. Entonces dijo que Bluesky está tratando de crear un “nuevo estándar” para gobernar ese raspado, similar al archivo robots.txt que los sitios web usan para comunicar sus permisos a los rastreadores web.
Los debates sobre el entrenamiento de IA y los derechos de autor han arrastrado a los robots.txt al centro de atención, entre otras cosas que destacan el hecho de que no es legalmente exigible. Bluesky enmarca su estándar propuesto como uno que tendría un “mecanismo y expectativas” similares, proporcionando “un formato legible por máquina, que se espera que los buenos actores permanezcan, y conlleva un peso ético, pero no es legalmente exigible”.
Según la propuesta, los usuarios de la aplicación Bluesky, u otras aplicaciones que usan el AtProtocol subyacente, podrían entrar en su configuración y permitir o no permitir el uso de sus datos de Bluesky en cuatro categorías: IA generativa, puente de protocolo (es decir, conectar diferentes ecosistemas sociales), datos de frascos masivos y el archivo web de IA (como la máquina de archivos de Internet).
Si un usuario indica que no quiere que sus datos se usen para capacitar a la IA generativa, la propuesta dice: “Se espera que las empresas y los equipos de investigación que construyan conjuntos de capacitación de IA respeten esta intención cuando lo ven, ya sea al raspar sitios web o haciendo transferencias masivas utilizando el protocolo en sí”.
Molly White, quien escribe la cita necesaria Boletín y Web3, está haciendo un gran blog, describió esto como “una buena propuesta”, y dijo que era “extraño ver a la gente que está llamando a Bluesky por ello”, ya que no es tanto “bienvenida en la AI”, sino que “tratar de agregar una señal de consentimiento para permitir a los usuarios comunicar preferencias para el desastre que ya está sucediendo”.
“Creo que la debilidad con esto y [Creative Commons’] La propuesta similar de “señales de preferencia” es que confían en los raspadores para respetar estas señales de algún deseo de ser buenos actores “, continuó White. “Ya hemos visto a algunas de estas compañías volar más allá de los robots.txt o el material pirata para rasparse”.