Lorsque vous recherchez des vols sur Google, vous avez peut-être remarqué que l'estimation des émissions carbone de chaque vol est désormais présentée à côté de son coût. C'est un moyen d'informer les clients sur leur impact environnemental et de leur permettre de prendre en compte cette information dans leur prise de décision.
Un tel type de transparence n'existe pas encore pour l'industrie informatique, malgré ses émissions de carbone dépassement ceux de l’ensemble du secteur aérien. Les modèles d’intelligence artificielle accroissent cette demande d’énergie. Des modèles énormes et populaires comme ChatGPT signalent une tendance à l'intelligence artificielle à grande échelle, renforçant les prévisions selon lesquelles les centres de données consommeront jusqu'à 21 % de l'approvisionnement électrique mondial d'ici 2030.
Le MIT Centre de calcul du laboratoire Lincoln (LLSC) développe des techniques pour aider les centres de données à réduire leur consommation d'énergie. Leurs techniques vont de changements simples mais efficaces, comme le matériel de limitation de puissance, à l'adoption de nouveaux outils capables d'arrêter très tôt la formation en IA. Surtout, ils ont constaté que ces techniques ont un impact minimal sur les performances du modèle.
Dans une perspective plus large, leur travail mobilise la recherche sur l’informatique verte et promeut une culture de transparence. « L'informatique économe en énergie n'est pas vraiment un domaine de recherche, car tout le monde conserve ses données », explique Vijay Gadepally, cadre supérieur de la SLLC qui dirige les efforts de recherche en matière d'énergie. « Quelqu'un doit commencer, et nous espérons que d'autres suivront. »
Réduction de la puissance et refroidissement
Comme de nombreux centres de données, le LLSC a constaté une augmentation significative du nombre de tâches d’IA exécutées sur son matériel. Constatant une augmentation de la consommation d'énergie, les informaticiens de la SLLC étaient curieux de savoir comment exécuter leurs tâches plus efficacement. L'informatique verte est un principe du centre, qui est entièrement alimenté par de l'énergie sans carbone.
La formation d’un modèle d’IA – le processus par lequel il apprend des modèles à partir d’énormes ensembles de données – nécessite l’utilisation d’unités de traitement graphique (GPU), qui sont du matériel gourmand en énergie. À titre d'exemple, on estime que les GPU qui ont entraîné GPT-3 (le précurseur de ChatGPT) ont consommé 1 300 mégawattheures d'électricité, soit à peu près l'équivalent de celle utilisée par 1 450 en moyenne Ménages américains par mois.
Alors que la plupart des gens recherchent les GPU en raison de leur puissance de calcul, les fabricants proposent des moyens de limiter la quantité d’énergie qu’un GPU est autorisé à consommer. « Nous avons étudié les effets du plafonnement de la puissance et avons constaté que nous pouvions réduire la consommation d'énergie d'environ 12 pour cent à 15 pour centselon le modèle », explique Siddharth Samsi, chercheur à la SLLC.
Le compromis pour le plafonnement de la puissance augmente le temps de tâche : les GPU prendront environ 3 % de plus pour accomplir une tâche, une augmentation qui, selon Gadepally, est « à peine perceptible » étant donné que les modèles sont souvent formés sur des jours, voire des mois. Dans l'une de leurs expériences dans laquelle ils ont formé le modèle de langage populaire BERT, limiter la puissance du GPU à 150 watts a entraîné une augmentation de deux heures du temps de formation (de 80 à 82 heures), mais a permis d'économiser l'équivalent d'une semaine d'énergie pour un foyer américain.
L’équipe a ensuite créé un logiciel qui connecte cette capacité de limitation de puissance au système de planification largement utilisé, Slurm. Le logiciel permet aux propriétaires de centres de données de définir des limites sur l'ensemble de leur système ou tâche par tâche.
« Nous pouvons déployer cette intervention aujourd'hui, et nous l'avons fait sur tous nos systèmes », déclare Gadepally.
Des avantages secondaires sont également apparus. Depuis la mise en place de contraintes d'alimentation, les GPU des supercalculateurs LLSC fonctionnent à environ 30 degrés Fahrenheit de moins et à une température plus constante, réduisant ainsi la pression sur le système de refroidissement. L’exécution du refroidisseur matériel peut également potentiellement augmenter la fiabilité et la durée de vie du service. Ils peuvent désormais envisager de retarder l’achat de nouveau matériel – réduisant ainsi le « carbone intrinsèque » du centre, ou les émissions créées par la fabrication des équipements – jusqu’à ce que les gains d’efficacité obtenus grâce à l’utilisation du nouveau matériel compensent cet aspect de l’empreinte carbone. Ils trouvent également des moyens de réduire les besoins en refroidissement en planifiant stratégiquement les travaux de nuit et pendant les mois d'hiver.
« Les centres de données peuvent aujourd'hui utiliser ces approches faciles à mettre en œuvre pour accroître leur efficacité, sans nécessiter de modifications du code ou de l'infrastructure », explique Gadepally.
Examiner de manière globale les opérations d'un centre de données pour trouver des opportunités de réduction peut prendre beaucoup de temps. Pour rendre ce processus plus facile pour les autres, l'équipe – en collaboration avec le professeur Devesh Tiwari et Baolin Li de la Northeastern University – a récemment développé et a publié un document complet cadre d’analyse de l’empreinte carbone des systèmes de calcul haute performance. Les praticiens du système peuvent utiliser ce cadre d'analyse pour mieux comprendre le degré de durabilité de leur système actuel et envisager des changements pour les systèmes de prochaine génération.
Ajuster la façon dont les modèles sont formés et utilisés
En plus d'apporter des ajustements aux opérations du centre de données, l'équipe réfléchit à des moyens de rendre le développement de modèles d'IA plus efficace.
Lors de la formation des modèles, les développeurs d’IA se concentrent souvent sur l’amélioration de la précision et s’appuient sur les modèles précédents comme point de départ. Pour obtenir le résultat souhaité, ils doivent déterminer les paramètres à utiliser, et pour y parvenir, il peut falloir tester des milliers de configurations. Ce processus, appelé optimisation des hyperparamètres, est un domaine que les chercheurs de la LLSC ont trouvé propice à la réduction du gaspillage énergétique.
« Nous avons développé un modèle qui examine essentiellement la vitesse à laquelle une configuration donnée apprend », explique Gadepally. Compte tenu de ce taux, leur modèle prédit la performance probable. Les modèles sous-performants sont arrêtés plus tôt. « Nous pouvons vous donner dès le début une estimation très précise selon laquelle le meilleur modèle figurera dans ce top 10 des 100 modèles en cours », dit-il.
Dans leurs études, cet arrêt précoce a conduit à des économies considérables : un 80 pour cent de réduction dans l’énergie utilisée pour la formation du modèle. Ils ont appliqué cette technique aux modèles développés pour les applications de vision par ordinateur, de traitement du langage naturel et de conception matérielle.
« À mon avis, cette technique présente le plus grand potentiel pour faire progresser la manière dont les modèles d'IA sont formés », déclare Gadepally.
La formation n’est qu’une partie des émissions d’un modèle d’IA. Le principal contributeur aux émissions au fil du temps est l'inférence de modèle, ou le processus d'exécution du modèle en direct, comme lorsqu'un utilisateur discute avec ChatGPT. Pour répondre rapidement, ces modèles utilisent du matériel redondant, fonctionnant en permanence, attendant qu'un utilisateur pose une question.
Une façon d’améliorer l’efficacité de l’inférence consiste à utiliser le matériel le plus approprié. Également avec la Northeastern University, l'équipe créé un optimiseur qui correspond à un modèle avec la combinaison de matériel la plus économe en carbone, comme des GPU haute puissance pour les parties d'inférence à forte intensité de calcul et des unités centrales de traitement (CPU) à faible consommation pour les aspects les moins exigeants. Ce travail a récemment remporté le prix du meilleur article au Symposium international ACM sur le calcul parallèle et distribué haute performance.
L'utilisation de cet optimiseur peut réduire la consommation d'énergie de 10 à 20 % tout en atteignant le même « objectif de qualité de service » (la rapidité avec laquelle le modèle peut réagir).
Cet outil est particulièrement utile pour les clients cloud, qui louent des systèmes dans des centres de données et doivent sélectionner du matériel parmi des milliers d'options. « La plupart des clients surestiment ce dont ils ont besoin ; ils choisissent du matériel trop performant simplement parce qu'ils ne connaissent pas mieux », explique Gadepally.
Sensibilisation croissante à l’informatique verte
L’énergie économisée grâce à la mise en œuvre de ces interventions réduit également les coûts associés au développement de l’IA, souvent dans un rapport de un pour un. En fait, le coût est généralement utilisé comme indicateur de la consommation d’énergie. Compte tenu de ces économies, pourquoi davantage de centres de données n’investissent-ils pas dans des techniques vertes ?
« Je pense que c'est un peu un problème de désalignement des incitations », dit Samsi. « Il y a eu une telle course pour construire des modèles plus grands et meilleurs que presque toutes les considérations secondaires ont été mises de côté. »
Ils soulignent que même si certains centres de données achètent des crédits d'énergie renouvelable, ces énergies renouvelables ne suffisent pas à couvrir la demande croissante en énergie. La majorité de l’électricité qui alimente les centres de données provient de combustibles fossiles, et l’eau utilisée pour le refroidissement contribue au stress des bassins versants.
Des hésitations peuvent également exister parce qu'aucune étude systématique sur les techniques d'économie d'énergie n'a été menée. C'est pourquoi l'équipe a poussé ses recherches dans des lieux évalués par des pairs en plus des référentiels open source. Certains grands acteurs du secteur, comme Google DeepMind, ont appliqué l'apprentissage automatique pour accroître l'efficacité des centres de données, mais n'ont pas rendu leur travail accessible à d'autres pour le déploiement ou la réplication.
Les principales conférences sur l’IA font désormais pression pour des déclarations éthiques qui examinent la manière dont l’IA pourrait être utilisée à mauvais escient. L’équipe considère l’aspect climatique comme un sujet d’éthique de l’IA auquel on n’a pas encore prêté beaucoup d’attention, mais qui semble également évoluer lentement. Certains chercheurs révèlent désormais l'empreinte carbone de la formation des derniers modèles, et l'industrie montre également un changement en matière de transparence énergétique, comme dans ce cas. rapport récent de Meta AI.
Ils reconnaissent également que la transparence est difficile sans outils capables de montrer aux développeurs d’IA leur consommation. La production de rapports figure sur la feuille de route de la SLLC pour cette année. Ils veulent pouvoir montrer à chaque utilisateur de la LLSC, pour chaque travail, la quantité d'énergie qu'ils consomment et comment cette quantité se compare aux autres, à l'instar des rapports énergétiques domestiques.
Une partie de cet effort nécessite de travailler plus étroitement avec les fabricants de matériel pour rendre l'extraction de ces données à partir du matériel plus facile et plus précise. Si les fabricants parviennent à standardiser la manière dont les données sont lues, les outils d'économie d'énergie et de reporting pourront alors être appliqués sur différentes plates-formes matérielles. Une collaboration est en cours entre les chercheurs du LLSC et Intel pour travailler sur ce problème précis.
Même les développeurs d’IA conscients des besoins énergétiques intenses de l’IA ne peuvent pas faire grand-chose à eux seuls pour réduire cette consommation d’énergie. L'équipe du LLSC souhaite aider d'autres centres de données à appliquer ces interventions et à offrir aux utilisateurs des options économes en énergie. Leur premier partenariat est avec l'US Air Force, sponsor de cette recherche, qui exploite des milliers de centres de données. L’application de ces techniques peut réduire considérablement leur consommation d’énergie et leur coût.
« Nous confions le contrôle aux développeurs d'IA qui souhaitent réduire leur empreinte », déclare Gadepally. « Ai-je vraiment besoin d'entraîner gratuitement des modèles peu prometteurs ? Suis-je prêt à faire fonctionner mes GPU plus lentement pour économiser de l'énergie ? À notre connaissance, aucun autre centre de calcul intensif ne vous permet d'envisager ces options. Aujourd'hui, grâce à nos outils, c'est vous qui décidez. »
Visite cette page Web pour consulter les publications du groupe liées à l'informatique économe en énergie et les résultats décrits dans cet article.