En la era de la IA generativa, cuando los chatbots pueden brindar respuestas detalladas a preguntas basadas en contenido extraído de Internet, la línea entre el uso justo y el plagio, y entre el raspado web rutinario y el resumen poco ético, es muy delgada.
Perplexity AI es una startup que combina un motor de búsqueda con un gran modelo de lenguaje que genera respuestas detalladas, en lugar de solo enlaces. A diferencia de ChatGPT de OpenAI y Claude de Anthropic, Perplexity no entrena sus propios modelos de IA básicos, sino que utiliza modelos abiertos o disponibles comercialmente para tomar la información que recopila de Internet y traducirla en respuestas.
Pero una serie de acusaciones en junio sugieren que el enfoque de la startup raya en la falta de ética. Forbes denunció a Perplexity por supuestamente plagiar uno de sus artículos de noticias en la función beta Perplexity Pages de la startup. Y Wired ha acusado a Perplexity de raspar ilícitamente su sitio web, junto con otros sitios.
Perplexity, que en abril estaba trabajando para recaudar 250 millones de dólares con una valoración cercana a los 3.000 millones, sostiene que no ha hecho nada malo. La empresa, respaldada por Nvidia y Jeff Bezos, dice que ha respetado las solicitudes de los editores de no copiar contenido y que está operando dentro de los límites de las leyes de derechos de autor de uso justo.
La situación es complicada. En el fondo, hay matices en torno a dos conceptos. El primero es el Protocolo de Exclusión de Robots, un estándar utilizado por los sitios web para indicar que no quieren que los robots accedan a su contenido o lo utilicen. El segundo es el uso legítimo en la legislación sobre derechos de autor, que establece el marco legal para permitir el uso de material protegido por derechos de autor sin permiso ni pago en determinadas circunstancias.
Extraer contenido web subrepticiamente
El artículo de Wired del 19 de junio afirma que Perplexity ha ignorado el Protocolo de Exclusión de Robots para rastrear subrepticiamente áreas de sitios web a las que los editores no quieren que accedan los bots. Wired informó que observó una máquina vinculada a Perplexity haciendo esto en su propio sitio de noticias, así como en otras publicaciones de su empresa matriz, Condé Nast.
El informe señaló que el desarrollador Robb Knight realizó un experimento similar y llegó a la misma conclusión.
Tanto los periodistas de Wired como Knight pusieron a prueba sus sospechas pidiendo a Perplexity que resumiera una serie de URL y luego observando en el servidor cómo una dirección IP asociada con Perplexity visitaba esos sitios. Perplexity luego “resumió” el texto de esas URL, aunque en el caso de un sitio web ficticio con contenido limitado que Wired creó para este propósito, devolvió el texto de la página textualmente.
Aquí es donde entran en juego los matices del Protocolo de Exclusión de Robots.
El web scraping es técnicamente Cuando los programas automatizados, conocidos como rastreadores, rastrean la web para indexar y recopilar información de los sitios web. Los motores de búsqueda como Google hacen esto para que las páginas web puedan incluirse en los resultados de búsqueda. Otras empresas e investigadores utilizan rastreadores para recopilar datos de Internet para análisis de mercado, investigación académica y, como hemos aprendido, para entrenar modelos de aprendizaje automático.
Los web scrapers que cumplen con este protocolo primero buscarán el archivo “robots.txt” en el código fuente de un sitio para ver qué está permitido y qué no. Hoy en día, lo que no está permitido es, por lo general, el scraping del sitio de un editor para crear conjuntos de datos de entrenamiento masivos para IA. Los motores de búsqueda y las empresas de IA, incluida Perplexity, han declarado que cumplen con el protocolo, pero no están legalmente obligados a hacerlo.
El director de negocios de Perplexity, Dmitry Shevelenko, le dijo a TechCrunch que resumir una URL no es lo mismo que rastrear. “Rastrear es simplemente ir por ahí absorbiendo información y agregándola a tu índice”, dijo Shevelenko. Señaló que la IP de Perplexity podría aparecer como un visitante a un sitio web que “de otra manera estaría prohibido en robots.txt” solo cuando un usuario ingresa una URL en su consulta, lo que “no cumple con la definición de rastreo”.
“Simplemente estamos respondiendo a una solicitud directa y específica del usuario para acceder a esa URL”, dijo Shevelenko.
En otras palabras, si un usuario proporciona manualmente una URL a una IA, Perplexity dice que su IA no está actuando como un rastreador web sino más bien como una herramienta para ayudar al usuario a recuperar y procesar la información que solicitó.
Pero para Wired y muchos otros editores, esa es una distinción sin diferencia porque visitar una URL y extraer información de ella para resumir el texto seguramente se parece mucho a un scraping si se hace miles de veces al día.
(Wired también informó que Amazon Web Services, uno de los proveedores de servicios en la nube de Perplexity, está investigando a la startup por ignorar el protocolo robots.txt para rastrear páginas web que los usuarios citaron en su mensaje. AWS le dijo a TechCrunch que el informe de Wired es inexacto y que le dijo al medio que estaba procesando su consulta de medios como lo hace con cualquier otro informe que alegue abuso del servicio).
¿Plagio o uso justo?
Wired y Forbes también acusaron a Perplexity de plagio. Irónicamente, Wired dice que Perplexity plagió el mismo artículo que denunciaba a la startup por copiar subrepticiamente su contenido web.
Los periodistas de Wired dijeron que el chatbot Perplexity “produjo un texto de seis párrafos y 287 palabras que resume de forma precisa las conclusiones de la historia y las pruebas utilizadas para llegar a ellas”. Una oración reproduce exactamente una oración de la historia original; Wired dice que esto constituye plagio. Las pautas del Instituto Poynter dicen que podría ser plagio si el autor (o la IA) usara siete palabras consecutivas de la obra original.
Forbes también acusó a Perplexity de plagio. El sitio de noticias publicó un informe de investigación a principios de junio sobre cómo la nueva empresa del director ejecutivo de Google, Eric Schmidt, está reclutando a gran escala y probando drones impulsados por IA con aplicaciones militares. Al día siguiente, el editor de Forbes, John Paczkowski, publicó en X que Perplexity había republicado la primicia como parte de su función beta, Perplexity Pages.
Perplexity Pages, que por ahora solo está disponible para ciertos suscriptores de Perplexity, es una nueva herramienta que promete ayudar a los usuarios a convertir sus investigaciones en “contenido visualmente impactante y completo”, según Perplexity. Algunos ejemplos de este tipo de contenido en el sitio provienen de los empleados de la startup, e incluyen artículos como “Una guía para principiantes sobre la batería” o “Steve Jobs: CEO visionario”.
“Roba la mayor parte de nuestros artículos”, escribió Paczkowski. “Nos cita a nosotros y a algunos que nos rebloguearon como fuentes de la forma más fácil de ignorar”.
Forbes informó que muchas de las publicaciones seleccionadas por el equipo de Perplexity son “notablemente similares a historias originales de varias publicaciones, incluidas Forbes, CNBC y Bloomberg”. Forbes dijo que las publicaciones obtuvieron decenas de miles de vistas y no mencionaron ninguna de las publicaciones por su nombre en el texto del artículo. En cambio, los artículos de Perplexity incluyeron atribuciones en forma de “logotipos pequeños y fáciles de pasar por alto que enlazan a ellos”.
Además, Forbes dijo que la publicación sobre Schmidt contiene “textos casi idénticos” a la exclusiva de Forbes. La publicación también incluía una imagen creada por el equipo de diseño de Forbes que parecía haber sido ligeramente modificada por Perplexity.
El director ejecutivo de Perplexity, Aravind Srinivas, respondió a Forbes en ese momento diciendo que la startup citaría fuentes de manera más destacada en el futuro, una solución que no es infalible, ya que las citas en sí mismas enfrentan dificultades técnicas. ChatGPT y otros modelos han alucinado enlaces y, dado que Perplexity usa modelos OpenAI, es probable que sea susceptible a tales alucinaciones. De hecho, Wired informó que observó a Perplexity alucinando historias enteras.
Además de señalar los “defectos” de Perplexity, Srinivas y la compañía han redoblado sus esfuerzos en favor del derecho de Perplexity a utilizar dicho contenido para resúmenes.
Aquí es donde entran en juego los matices del uso legítimo. El plagio, aunque está mal visto, técnicamente no es ilegal.
Según la Oficina de Derechos de Autor de Estados Unidos, es legal utilizar partes limitadas de una obra, incluidas citas, con fines tales como comentarios, críticas, reportajes periodísticos e informes académicos. Las empresas de inteligencia artificial como Perplexity sostienen que proporcionar un resumen de un artículo está dentro de los límites del uso legítimo.
“Nadie tiene el monopolio de los hechos”, afirmó Shevelenko. “Una vez que los hechos salen a la luz, todo el mundo puede usarlos”.
Shevelenko comparó los resúmenes de Perplexity con la forma en que los periodistas a menudo utilizan información de otras fuentes de noticias para reforzar sus propios informes.
Mark McKenna, profesor de Derecho en el Instituto de Tecnología, Derecho y Política de la UCLA, dijo a TechCrunch que la situación no es fácil de desentrañar. En un caso de uso legítimo, los tribunales sopesarían si el resumen utiliza muchas de las expresiones del artículo original, en lugar de solo las ideas. También podrían examinar si la lectura del resumen podría sustituir a la lectura del artículo.
“No hay límites claros”, dijo McKenna. “Así que [Perplexity] Decir con hechos lo que dice un artículo o lo que informa sería utilizar aspectos de la obra que no están sujetos a derechos de autor. Eso sería solo hechos e ideas. Pero cuanto más incluya el resumen la expresión y el texto reales, más empezará a parecerse a una reproducción, en lugar de un simple resumen”.
Desafortunadamente para los editores, a menos que Perplexity utilice expresiones completas (y aparentemente, en algunos casos, lo hace), sus resúmenes podrían no considerarse una violación del uso justo.
Cómo Perplexity intenta protegerse
Las empresas de inteligencia artificial como OpenAI han firmado acuerdos con una serie de editoriales de noticias para acceder a su contenido actual y de archivo con el que entrenar sus algoritmos. A cambio, OpenAI promete mostrar artículos de noticias de esas editoriales en respuesta a las consultas de los usuarios en ChatGPT (pero incluso eso tiene algunos problemas que deben solucionarse, como informó Nieman Lab la semana pasada).
Perplexity ha postergado el anuncio de su propia serie de acuerdos con medios, tal vez esperando a que se calmen las acusaciones en su contra. Pero la empresa está “a toda máquina” en una serie de acuerdos de reparto de ingresos publicitarios con editoriales.
La idea es que Perplexity comience a incluir anuncios junto con las respuestas a las consultas, y los editores que tengan contenido citado en alguna respuesta obtendrán una porción de los ingresos publicitarios correspondientes. Shevelenko dijo que Perplexity también está trabajando para permitir que los editores accedan a su tecnología para que puedan crear experiencias de preguntas y respuestas y potenciar cosas como preguntas relacionadas de forma nativa dentro de sus sitios y productos.
Pero ¿es esto simplemente una hoja de parra para ocultar el robo sistemático de propiedad intelectual? Perplexity no es el único chatbot que amenaza con resumir el contenido de manera tan completa que los lectores no ven la necesidad de hacer clic para acceder al material original.
Y si los sistemas de inteligencia artificial como este siguen tomando el trabajo de los editores y lo reutilizan para sus propios negocios, a los editores les resultará más difícil ganar dinero con la publicidad. Eso significa que, con el tiempo, habrá menos contenido para extraer. Cuando ya no quede más contenido para extraer, los sistemas de inteligencia artificial generativa pasarán a entrenarse con datos sintéticos, lo que podría dar lugar a un ciclo de retroalimentación infernal de contenido potencialmente sesgado e inexacto.