Par une autre journée moyenne, le co-fondateur et PDG du site de réparation de matériel de bricolage iFixit, Kyle Wiens, a vérifié sa facture d’hébergement web. Il a alors failli tomber de son fauteuil. Son site de guide de réparation a d’une manière ou d’une autre accumulé 5000 $ en bande passante en un seul jour. Le problème serait lié à des bots d’IA, qui auraient abusé de sa bande passante.
Son fournisseur d’hébergement a été en mesure d’identifier la cause. Tout indiquait un essaim de trafic ne provenant pas d’apprenants curieux, mais de robots.
Ce n’est pas nouveau. Alors que des entreprises comme OpenAI et Anthropic s’efforcent d’améliorer leurs LLM, elles envoient de plus en plus de bots agressifs pour rechercher du contenu nouveau et pertinent sur le Web.
De nombreuses preuves ont été mises en évidence ces dernières années. Elles prouvent que les bots sont à l’origine d’importantes contraintes financières et de capacité sur l’infrastructure d’hébergement.
Par exemple, il a été rapporté que le GPTBot d’OpenAI et le ClaudeBot d’Anthropic généraient des millions de requêtes par mois. Cela représente parfois jusqu’à 20 % du volume de crawlers de recherche de Google.
Les bots représentent déjà la moitié de tout le trafic web. Ces statistiques ne sont donc pas totalement surprenantes. La montée des robots de l’IA pourrait néanmoins marquer un nouveau chapitre dans l’histoire ancienne de l’homme vs. machine.
La Faim Insatiable des Bots d’IA Pour du Contenu Dévore la Bande Passante
La raison pour laquelle ces robots d’IA sont si avides de contenu est simple. Plus ils grattent, meilleurs ils deviennent pour générer des réponses précises.
Les sites comme iFixit attirent beaucoup de scraping. C’est dû au fait qu’ils présentent un contenu de niche, généré par l’utilisateur que les LLM recherchent.
L’année dernière, ClaudeBot a complètement submergé les serveurs d’iFixit avec des milliers de visites en moins d’une journée, malgré les termes clairs du site interdisant aux robots d’IA de gratter son contenu.
Puis, Wiens a pris X et a publié :
Il a par la suite déclaré à The Verge : « Le fait d’être l’un des meilleurs sites sur Internet nous permet de bien connaître les robots et les robots d’exploration. Nous pouvons très bien gérer cette charge, mais c’était une anomalie. »
Wiens a ajouté : « Mon premier message à Anthropic est que si vous utilisez ceci pour former votre modèle, c’est illégal. Mon deuxième point est le suivant : « Ce n’est pas un comportement poli sur Internet. Le fait de ramper est une question d’étiquette ».
Le crawling s’est finalement arrêté après que Wiens a ajouté une extension de crawl-delay au fichier robots.txt du site.
Ce cas est loin d’être isolé
iFixit n’est pas le seul, cependant :
La Wikimedia Foundation a déclaré que son utilisation de bande passante avait bondi de 50% depuis janvier 2024, en grande partie à cause des robots qui ignorent le fichier robots.txt.
Read the Docs a rapporté qu’un robot d’exploration de l’IA a téléchargé 73 To de fichiers HTML compressés en 2024, soit près de 10 To en une seule journée, ce qui a entraîné des frais de bande passante de plus de 5 000 $.
Game UI Database a déclaré que le GPTBot d’OpenAI frappait ses serveurs à un taux de 200 requêtes par seconde.
Freelancer.com a reçu 3,5 millions de visites en seulement quatre heures de ClaudeBot, et le crawler a continué même après que l’équipe ait essayé de le bloquer.
Le fondateur de Game UI Database, Edd Coates, a déclaré : « Il s’agissait essentiellement d’une attaque DDoS de deux semaines sous la forme d’un vol de données. »
Eric Holscher de Read the Docs a commenté : « Les robots d’IA nous ont coûté beaucoup d’argent en frais de bande passante et nous ont fait passer beaucoup de temps à traiter des abus. »
Matt Barrie de Freelancer.com partage une frustration similaire, notant qu’il est obligé de les bloquer parce qu’ils ne respectent pas les règles d’internet.
« Il s’agit d’un grave problème, qui ralentit le site pour tous ceux qui y travaillent et qui finit par affecter nos revenus », a déclaré M. Barrie.
Contournement des mesures de protection communes
Pour contrôler le trafic des bots, les sites Web s’appuient sur un fichier standard appelé robots.txt, qui spécifie quelles parties d’un site sont interdites aux robots d’exploration.
Mais le problème est qu’il est volontaire, donc les bots peuvent décider de l’ignorer, d’interpréter mal les règles ou de déformer leurs agents utilisateurs.
En outre, Cloudflare a signalé que 30 % à 40 % de l’exploration par l’IA proviennent désormais de bots qui ne s’identifient pas du tout.
Ces « robots d’indexation non déclarés de genAI » peuvent simuler des chaînes d’agents utilisateur pour donner l’impression qu’il s’agit de navigateurs normaux ou les exclure complètement.
Certaines entreprises d’IA font également appel à des courtiers en données pour dépouiller les sites en leur nom, se protégeant ainsi de toute responsabilité directe.
Reid Tatoris, directeur principal des produits chez Cloudflare, a expliqué : « Nous prévoyons que ce nombre augmentera au fil du temps à mesure qu’un plus grand nombre de sites web bloqueront les crawlers déclarés et que le nombre de robots d’IA continuera d’exploser. »
Les hébergeurs ripostent
Bloquer les bots n’est pas facile. La plupart des hébergeurs web essaient malgré tout. Pour ce faire, ils utilisent différentes stratégies reconnues.
Certaines méthodes courantes comprennent le filtrage des agents utilisateurs connus de bots, l’identification des plages d’adresses IP suspectes et l’utilisation d’outils de limitation de débit comme mod_evasive ou fail2ban.Cloudflare et Imperva ont également lancé des outils de détection et de blocage de bots.
Les propriétaires de sites sont encouragés à passer à un hébergement dédié afin de mieux gérer la bande passante. La protection des bots d’IA devient également une fonctionnalité standard de nombreux fournisseurs d’hébergement.
La bataille entre les robots d’IA et les propriétaires de sites pourrait atteindre un point tournant de guerre totale. Les entreprises d’IA devraient toutefois vraiment faire une pause et réfléchir à la valeur de certaines méthodes.
Comme l’a dit Holscher, « les bots de l’IA agissent d’une manière qui n’est pas respectueuse des sites qu’ils explorent et cela va créer un effet négatif contre les robots de l’IA en général ».
Pour conclure sur l’utilisation de la bande passante par les bots d’IA
Les bots d’IA sont devenus une réalité incontournable du web moderne. Ces agents posent toutefois de nombreux problèmes pour les propriétaires de sites web. Leur activité doit donc être gérée et contrôlée pour éviter qu’ils posent saturent la bande passante.
Heureusement, certains outils peuvent vous aider à protéger votre hébergement des bots d’IA. On peut notamment penser au Labyrinthe IA développé par Cloudflare. Celui-ci vous permet d’égarer les scrapers des IA et éviter qu’ils abusent de votre serveur.
Nous espérons que cet article vous a plus et vous a éclairé sur l’impact des bots d’IA sur la bande passante Si c’est le cas, nous vous enjoignons à consulter nos autres articles.
Si vous êtes à la recherche d’un hébergeur web, nous vous invitons aussi à jeter un coup d’œil nos nombreux comparatifs. Vous y trouverez opposés plusieurs des meilleurs acteurs de l’industrie.

