Luccioni et al. octobre 2024

Identification

LUCCIONI, Alexandra Sasha, JERNITE, Yacine et STRUBELL, Emma, 2024. Power Hungry Processing: Watts Driving the Cost of AI Deployment? In : The 2024 ACM Conference on Fairness Accountability and Transparency [en ligne]. 3 juin 2024. pp. 85‑99. DOI 10.1145/3630106.3658542. [Consulté le 4 novembre 2025]. Disponible à l’adresse : https://arxiv.org/pdf/2311.16863

Résultat global de l’étude

L’étude mesure uniquement la consommation énergétique et les émissions liées à l’inférence (ie. le moment d’utilisation et non l’entraînement des données) de 88 modèles sur 10 tâches. Elle montre que les modèles à plusieurs buts /génératifs et plus particulièrement les tâches de génération multimodale (images, texte long) sont beaucoup plus coûteuses que des modèles spécialisés (traitement de spams par exemple). Les auteurs évaluent la consommation en kWh et les émissions en gCO₂e (grammes équivalent CO₂) pour 1 000 inférences.

Méthodologie utilisée

Les mesures ont été faites sur des serveurs GPU de data centers, avec la comparaison entre les modèles spécialisés et multitâches.

Résultat selon le type de tâche

A garder en tête : 0,3gCO2e pour 1000 tris de texte, 6 à 10g CO2e pour 1000 générations de texte, 100 fois plus pour la génération de 1000 images.

On observe un rapport de 1000 entre une tâche simple de tri (text classification) et la génération d’images. Globalement les tâches spécifiques sont moins consommatrices que des tâches plus ouvertes.

Résultat selon la taille du modèle

On observe de nouveau un écart de près de 1000 entre le modèle le plus sobre et le plus énergivore. Les LLM généralistes sont 10 à 50 fois plus coûteux que des petits modèles spécialisés.

Analyse des causes

  • Les modèles génératifs utilisent davantage de calculs (chaîne de prédiction token par token ou pixel par pixel).

  • Les modèles multi-buts mobilisent des paramètres inutiles à la tâche ciblée.

  • La taille du modèle explique partiellement la consommation, mais la nature de la tâche reste la variable la plus déterminante.

  • Un autre point intéressant évoqué dans l’étude est que l’ « intensité carbone du mix énergétique » (selon le pays et la région du Datacenter) fait varier les émissions à consommation égale.

Les pistes d’optimisation proposées

Il faut choisir des modèles spécialisés et plus petits si possible, limiter la longueur des sorties (textes plus courts), batcher les inférences (traiter plusieurs requêtes à la fois), mais aussi tenter de choisir un datacenter avec une faible intensité carbone.