Tech

Cloudflare lance un outil pour combattre les bots AI

Saturday, August 10 2024

Cloudflare, le fournisseur de services cloud coté en bourse, a lancé un nouvel outil gratuit pour empêcher les bots de scraper les sites Web hébergés sur sa plateforme afin de collecter des données pour entraîner des modèles d'IA.

Certains fournisseurs d'IA, dont Google, OpenAI et Apple, permettent aux propriétaires de sites Web de bloquer les bots qu'ils utilisent pour le scraping de données et l'entraînement de modèles en modifiant le fichier robots.txt de leur site, qui indique aux bots quelles pages ils peuvent consulter sur un site. Mais, comme le souligne Cloudflare dans un article annonçant son outil de lutte contre les bots, tous les scrapeurs d'IA ne respectent pas cela.

« Les clients ne veulent pas que les bots d'IA visitent leurs sites Web, et encore moins ceux qui le font de manière malhonnête », écrit la société sur son blog officiel. « Nous craignons que certaines entreprises d'IA cherchant à contourner les règles d'accès pour obtenir du contenu s'adaptent de manière persistante pour éviter la détection des bots. »

Ainsi, dans le but de résoudre le problème, Cloudflare a analysé le trafic des bots et des crawlers d'IA pour affiner les modèles de détection automatique des bots. Les modèles tiennent compte, entre autres facteurs, de la possibilité qu'un bot d'IA essaye d'éviter la détection en imitant l'apparence et le comportement de quelqu'un utilisant un navigateur Web.

« Lorsque des acteurs malveillants tentent de parcourir des sites Web à large échelle, ils utilisent généralement des outils et des frameworks que nous pouvons identifier », écrit Cloudflare. « Sur la base de ces signaux, nos modèles sont capables de signaler de manière appropriée le trafic des bots d'IA évasifs en tant que bots. »

Cloudflare a mis en place un formulaire permettant aux hôtes de signaler les bots et les crawlers d'IA suspects et indique qu'elle continuera à interdire manuellement les bots d'IA avec le temps.

Le problème des bots d'IA est devenu particulièrement préoccupant avec le boom de l'IA générative alimentant la demande de données d'entraînement de modèles.

De nombreux sites, méfiants à l'idée que les fournisseurs d'IA entraînent des modèles sur leur contenu sans les alerter ou les compenser, ont choisi de bloquer les scrapeurs et les crawlers d'IA. Environ 26 % des 1 000 premiers sites Web ont bloqué le bot d'OpenAI, selon une étude ; une autre a révélé que plus de 600 éditeurs de news avaient bloqué le bot.

Le blocage n'est cependant pas une protection infaillible. Comme mentionné précédemment, certains fournisseurs semblent ignorer les règles standard d'exclusion des bots pour obtenir un avantage concurrentiel dans la course à l'IA. Le moteur de recherche d'IA Perplexity a récemment été accusé d'imiter des visiteurs légitimes pour récupérer du contenu sur les sites Web, et OpenAI et Anthropic sont parfois accusés d'ignorer les règles de robots.txt.

Dans une lettre aux éditeurs le mois dernier, la startup de licence de contenu TollBit a déclaré qu'elle constate en fait "de nombreux agents d'IA" ignorant la norme robots.txt.

Des outils comme celui de Cloudflare pourraient aider - mais seulement s'ils s'avèrent précis dans la détection des bots d'IA clandestins. Et ils ne résoudront pas le problème plus difficile des éditeurs risquant de sacrifier le trafic de référence des outils d'IA comme les aperçus IA de Google, qui excluent les sites de l'inclusion s'ils bloquent des crawlers d'IA spécifiques.

Pionnier du Marché54 Year ago