Home Tecnología Cloudflare lanza una herramienta para combatir los bots de IA

Cloudflare lanza una herramienta para combatir los bots de IA

by internauta
0 comment


Cloudflare, el proveedor de servicios en la nube que cotiza en bolsa, ha lanzado una nueva herramienta gratuita para evitar que los bots extraigan datos de los sitios web alojados en su plataforma para entrenar modelos de IA.

Algunos proveedores de inteligencia artificial, como Google, OpenAI y Apple, permiten a los propietarios de sitios web bloquear los bots que utilizan para extraer datos y entrenar modelos modificando el archivo robots.txt de su sitio, el archivo de texto que indica a los bots a qué páginas pueden acceder en un sitio web. Pero, como señala Cloudflare en una publicación en la que anuncia su herramienta para combatir bots, no todos los recolectores de datos de IA respetan esto.

“Los clientes no quieren que los robots de inteligencia artificial visiten sus sitios web, especialmente aquellos que lo hacen de manera deshonesta”, escribe la empresa en su blog oficial. “Tememos que algunas empresas de inteligencia artificial que intentan eludir las normas para acceder al contenido se adapten constantemente para evadir la detección de los robots”.

Por ello, en un intento de solucionar el problema, Cloudflare analizó el tráfico de robots y rastreadores de IA para ajustar los modelos de detección automática de robots. Los modelos tienen en cuenta, entre otros factores, si un robot de IA podría estar intentando evadir la detección imitando la apariencia y el comportamiento de alguien que usa un navegador web.

“Cuando los actores maliciosos intentan rastrear sitios web a gran escala, generalmente utilizan herramientas y marcos que podemos identificar”, escribe Cloudflare. “En función de estas señales, nuestros modelos [are] capaz de marcar apropiadamente el tráfico de bots de IA evasivos como bots”.

Cloudflare ha creado un formulario para que los hosts informen sobre bots y rastreadores de IA sospechosos y dice que continuará incluyendo manualmente en la lista negra a los bots de IA con el tiempo.

El problema de los bots de IA ha cobrado gran relevancia a medida que el auge de la IA generativa impulsa la demanda de datos de entrenamiento de modelos.

Muchos sitios, recelosos de que los proveedores de IA entrenen modelos en su contenido sin avisarles ni compensarles, han optado por bloquear los robots de IA. Según un estudio, alrededor del 26 % de los 1000 sitios más importantes de la web han bloqueado el robot de OpenAI; otro estudio descubrió que más de 600 importantes medios de comunicación habían bloqueado el robot.

Sin embargo, el bloqueo no es una solución infalible. Como se mencionó anteriormente, algunos proveedores parecen ignorar las reglas de exclusión estándar para obtener una ventaja competitiva. El motor de búsqueda de inteligencia artificial Perplexity fue acusado recientemente de hacerse pasar por visitantes legítimos para extraer contenido de los sitios web.

Herramientas como las de Cloudflare podrían ayudar, pero solo si demuestran ser precisas a la hora de detectar bots de IA clandestinos.

You may also like

Exploramos la red para colectar la información más importante que pueda ser compartida para los intereses de los internautas.

El Blog del Internauta 2022

-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00