05 Juil 2024
Olivier
Cloudflare, le fournisseur du très populaire CDN, a lancé un nouvel outil gratuit pour empêcher les bots de récupérer les données des sites Web hébergés sur sa plateforme afin former des modèles d’IA. Cette annonce est une excellente nouvelle, alors que l’utilisation non autorisée de données à cette fin est devenue un problème de plus en plus urgent.
Les entreprises développant des intelligences artificielles ont besoin de quantités astronomiques de données pour les former et les améliorer. Meta utilise les données de Facebook, Instagram, Whatsapp et Messenger pour former son IA. Google utilise celles de Youtube, de son moteur de recherche et sa vasste gamme d’outils.
OpenAI, dirigé par Elon Musk, utilise celles de X (Twitter), en plus d’avoir acquis celles d’une centaines d’entreprises et d’organisations. Malgré cela, l’entreprise se trouve au centre de nombreux litiges, pour avoir aussi utilisé une foule de donnés sans autorisation. Ce comportement de certains développeurs d’IA a donc suscité de vives inquiétudes autour de ce domaine encore dépourvu de cadre juridique.
Cloudflare a sonc décidé d’agir unilatéralement pour protéger les données de ses utilisateurs. Dans un article détaillé sur son blog officiel, l’entreprise a présenté ses efforts pour empêches les bots de IA d’accéder aux données de ses utilisateurs. Elles a aussi mis un outil gratuit à la disposition de ses client pour protéger leur contenu.
Certains fournisseurs d’IA, dont Google, OpenAI et Apple, affirme permettre aux propriétaires de sites Web de bloquer les robots qu’ils utilisent pour le scraping de données. Ils affirment que leurs bots respectent les directives dictées par le fichier robots.txt des sites. Ce fichier texte sert à indiquer aux robots les pages auxquelles ils peuvent accéder sur un site Web. Cloudflare souligne toutefois dans son article annonçant son outil de lutte contre les bots, que tous les scrapers d’IA ne respectent pas ces directives.
« Les clients ne veulent pas que les robots IA visitent leurs sites Web, et en particulier ceux qui le font de manière malhonnête. Nous craignons que certaines entreprises d’IA qui ont l’intention de contourner les règles d’accès au contenu s’adaptent constamment pour échapper à la détection des robots. » Extrait du blog officiel de Cloudflare.
Pour tenter de résoudre le problème, Cloudflare a donc analysé le trafic des robots d’indexation et des robots d’intelligence artificielle. L’entreprise a ainsi pu affiner ses modèles de détection automatique des robots. Ses modèles considère même la possibilité qu’un bot d’IA tente d’échapper à la détection en imitant l’apparence et le comportement d’une personne utilisant un navigateur web.
« Lorsque les mauvais acteurs tentent d’explorer des sites Web à grande échelle, ils utilisent généralement des outils et des cadres que nous sommes en mesure d’identifier. Sur la base de ces signaux, nos modèles [sont] en mesure de signaler de manière appropriée le trafic provenant de bots IA évasifs en tant que bots. » extrait du blog officiel de Cloudflare.
Cloudflare a mis en place un formulaire permettant aux hôtes de signaler les robots et les robots d’exploration suspectés d’IA. L’entreprise indique aussi qu’elle continuera de blacklister manuellement les robots d’IA au fil du temps.
Le combat contre le problème des bots d’IA semble ainsi d’être trouver un meneur d’envergure. Il était temps, car le boom des IA génératives alimente une forte demande de données pour la formation de modèles.
De nombreux sites sont méfiants des fournisseurs d’IA qui forment des modèles sur leur contenu sans les alerter ou les compenser. Plusieurs d’entre eux ont donc choisi de bloquer eux-mêmes les scrapers et les crawlers d’IA. Selon des études, environ 26% des 1000 premiers sites sur le web ont bloqué le bot d’OpenAI. Une autre analyse a constaté que plus de 600 éditeurs de presse avaient bloqué ce même bot.
Le blocage n’est cependant pas une protection infaillible. Comme mentionné précédemment, certains fournisseurs semblent ignorer les règles d’exclusion standard des bots. Ils espèrent ainsi obtenir un avantage concurrentiel dans la course au développement des IA.
Le moteur de recherche AI Perplexity a récemment été accusé d’usurper l’identité de visiteurs légitimes pour extraire du contenu de sites Web. OpenAI et Anthropic sont pour leur part accusé d’avoir régulièrement ignoré les règles de fichiers robots.txt.
Des outils comme celui de Cloudflare pourraient aider. Pour être efficace, ils doivent toutefois s’avérer précis dans la détection des robots clandestins d’IA. Ils ne résoudront pas non plus le problème plus insoluble des éditeurs qui risquent de sacrifier le trafic de référence aux outils d’IA. Par exemple, les sites qui bloquent des crawlers d’IA spécifiques sont déjà exclu des aperçus Google, les privant d’une visibilité accrue.
L’absence de loi encadrant la formation des intelligence artificielle amènent plusieurs développeurs à violer les règles établies, sans risquer la moindre sanction. Il n’est donc pas étonnant que des acteurs privés comme Cloudflare choisissent de prendre les choses en main, et d’agir de leur propre chef pour bloquer les bots des IA.
On ne peut que saluer les efforts du fournisseur de CDN, et espérer que sont outil soit fiable. Il faut également espérer qu’un cadre législatif viendra bientôt restreindre l’appétit des développeurs d’IA pour des données qui ne leurs appartiennent pas.
Nous espérons que cet article vous a plus et vous a éclairé sur le nouvel outil de Cloudflare pour bloquer les bots des IA. Si c’est le cas, nous vous invitons à consulter nos autres articles et comparatifs de notre blog. Vous y trouverez les informations les plus récentes sur l’industrie l’hébergement et sur la création de sites web.