Des araignées et des IA

On entend, légitimement, de plus en plus de critiques concernant l’impact environnemental des IA : à travers le monde, les entreprises construisent à tour de bras des datacenters sur des terres nouvellement artificialisées, qu’il faut ensuite remplir d’ordinateurs neufs, faits de matières premières extraites dans les pires conditions, qu’il faut ensuite alimenter avec de l’électricité pas nécessairement issue de sources renouvelables, et qu’il faut refroidir avec de l’eau qui est détournée d’autres usages.

The responsible use of AI typically focuses on ensuring fairness, transparency, accountability, and safety but rarely on environmental responsibility. This is a significant oversight as there are many critical ecological implications of AI which cannot simply be ignored, including those associated with storing and processing the vast volumes of data many AI models use to train and operate, to perform task(s) and generate output(s) such as building a representation of the global environment.
[Everyone must understand the environmental costs of AI ]

Cependant, ce dont on entend beaucoup moins parler, c’est du coût environnemental que font porter les acteurs de l’IA à quiconque ayant une présence sur le Web.

En effet, jusqu’à présent, lorsque l’on publiait du contenu sur la toile, en dehors des robots utilisés par les pirates pour trouver des failles de sécurité, la seule réelle inquiétude que l’on pouvait avoir vis à vis des robots, c’était de les voir indexer du contenu qu’on ne souhaitait pas voir indexé.
Pour cela, il existait une forme de gentlemen’s agreement qui faisait qu’on pouvait demander explicitement aux robots de ne pas indexer tout ou partie de notre contenu, en déclarant les règles appropriées dans un fichier robots.txt.
Les plus zélés allaient jusqu’à écrire des règles d’exclusion spécifique à différents niveaux de leur infrastructure (firewall, serveur web…).
Plus globalement, l’activité des robots avait une forme de logique, qui fait qu’une même page n’allait pas être requêtée plus que de raison.
Dans les outils de statistiques de fréquentation, les bots avaient leur catégorie dédiée, ou ils se cachaient simplement dans la masse des visiteurs.

Ça, c’était avant.

Maintenant, pour avoir le modèle d’IA le plus avancé, l’objectif de chaque entreprise porteuse de projet est de collecter le plus de données possible.
Et quoi de mieux que le Web, qui contient des milliards et des milliards d’écrits, d’images, d’enregistrement audio, de videos…, disponibles publiquement et gratuitement ?

Dans cette course à l’armement, les accords du passé n’existent plus, et le bon sens a disparu.

Avoir du contenu disponible publiquement sur le Web, ça veut dire être la cible directe et permanente de nombreux crawlers, ces robots destinés à venir puiser toute forme de data pour ensuite alimenter les fourneaux des modèles à entraîner.

À la différence d’un couple de tourterelles qui irait picorer dans une mangeoire, on est maintenant face à un attroupement de vautours.

Un même robot peut requêter plusieurs centaines de fois la même page au cours d’une journée.

Ils sont devenus, et de loin, les visiteurs les plus populaires de nombreux sites.

À tel point que certains sites, qui avaient une infrastructure prévue pour accueillir quelques centaines de visiteurs par jour, se retrouvent indisponibles, les machines étant surchargées par les demandes des robots.

Certes, il existait déjà différentes techniques pour réduire leur impact, comme l’utilisation de systèmes de cache, mais ce n’est pas toujours possible, ou pertinent.

Pourquoi, quelqu’un qui publie un site personnel sur un simple VPS, devrait mettre en place une infrastructure digne d’un SaaS d’une multinationale, pour que son public puisse continuer à accéder à son contenu, pendant que les robots des IA le harcèlent en permanence ?

Le problème a pris tant d’ampleur que des services spécialisés ont vu le jour.

Pour avoir travaillé avec différents clients qui ont tous été victimes du phénomène, j’ai pu constater son fort impact, qui peut être réduit, mais qui, malheureusement, ne peut être supprimé, tant que ces pratiques continueront.
Et tout porte à croire qu’elles vont s’amplifier.

Cas #1 : Ne rien faire.
Pas de changement d’infrastructure, le client accepte de laisser les robots agir, parfois jusqu’à saturation.
Résultat, au lieu d’avoir des machines qui traîtaient X requêtes par jour, elles peuvent en traîter jusqu’à 100X maintenant.
Multipliant par autant la consommation d’énergie de l’infrastructure.

Cas #2 : Augmenter les capacités.
L’objectif étant de ne pas être saturé pour pouvoir servir les demandes légitimes, on augmente les capacités de calcul pour garantir un niveau de réponse cible.
Là, c’est encore pire, puisqu’on peut monter à 1000X plus de requêtes qu’avant, et donc un même facteur sur la consommation d’énergie.

Cas #3 : Bloquer localement.
Via un firewall ou des règles de filtrage sur le serveur.
Ça permet d’éviter l’augmentation des requêtes à servir.
Cependant, pour pouvoir traîter un tel volume de demandes, même si la majorité est rejetée, ça nécessite d’augmenter les capacités.
La consommation d’énergie est donc supérieure.

Cas #4 : Bloquer en amont.
Typiquement avec un outil comme celui proposé par Cloudflare.
Là, côté infrastructure du client, c’est retour complet à la normale. Top !
Par contre, le fournisseur du service, lui, il doit traiter les demandes, même s’il en rejette une majorité.
La consommation d’énergie est donc également supérieure.
Cependant, comme c’est une prestation proposée à plusieurs clients, on imagine aisément une mutualisation des ressources et ainsi un meilleur ratio que dans le Cas #3.

Dans ces scénarios, je ne couvre même pas les acteurs intermédiaires, qui sont les réseaux interconnectés qui font transiter les requêtes entre le crawler et sa cible, et dont la consommation augmente, avec l’explosion du traffic.

C’est toute la beauté de la chose : que l’on soit, ou non, dans le business de l’IA, si l’on souhaite assurer une présence en ligne, on n’a pas d’autre choix que d’augmenter sa consommation d’énergie pour satisfaire, ou se prémunir, de l’appétit de leurs crawlers.

Et pendant ce temps, certains continuent à nous demander de ne pas trop remplir notre boîte d’emails…