Recherche
Contrôler avec succès le plasma de fusion nucléaire dans un tokamak grâce à un apprentissage par renforcement profond
Pour résoudre la crise énergétique mondiale, les chercheurs recherchent depuis longtemps une source d’énergie propre et illimitée. La fusion nucléaire, la réaction qui alimente les étoiles de l’univers, est l’un des prétendants. En brisant et en fusionnant l’hydrogène, un élément commun de l’eau de mer, ce puissant processus libère d’énormes quantités d’énergie. Ici sur Terre, les scientifiques ont recréé ces conditions extrêmes en utilisant un tokamak, un vide en forme de beignet entouré de bobines magnétiques, utilisé pour contenir un plasma d'hydrogène plus chaud que le noyau du Soleil. Cependant, les plasmas de ces machines sont intrinsèquement instables, ce qui rend le maintien du processus nécessaire à la fusion nucléaire un défi complexe. Par exemple, un système de contrôle doit coordonner les nombreuses bobines magnétiques du tokamak et ajuster leur tension des milliers de fois par seconde pour garantir que le plasma ne touche jamais les parois du récipient, ce qui entraînerait une perte de chaleur et éventuellement des dommages. Pour aider à résoudre ce problème et dans le cadre de la mission de DeepMind visant à faire progresser la science, nous avons collaboré avec le Centre Suisse du Plasma à EPFL développer le premier système d'apprentissage par renforcement profond (RL) permettant de découvrir de manière autonome comment contrôler ces bobines et de contenir avec succès le plasma dans un tokamak, ouvrant ainsi de nouvelles voies pour faire progresser la recherche sur la fusion nucléaire.
Dans un article publié aujourd'hui dans Nature, nous décrivons comment nous pouvons contrôler avec succès le plasma de fusion nucléaire en construisant et en exécutant des contrôleurs sur le tokamak à configuration variable (TCV) à Lausanne, en Suisse. En utilisant une architecture d'apprentissage combinant une RL profonde et un environnement simulé, nous avons produit des contrôleurs capables à la fois de maintenir le plasma stable et d'être utilisés pour le sculpter avec précision sous différentes formes. Cette « sculpture du plasma » montre que le système RL a réussi à contrôler la matière surchauffée et, surtout, permet aux scientifiques d'étudier comment le plasma réagit dans différentes conditions, améliorant ainsi notre compréhension des réacteurs à fusion.
Ce travail est un autre exemple puissant de la façon dont l’apprentissage automatique et les communautés d’experts peuvent s’unir pour relever de grands défis et accélérer la découverte scientifique. Notre équipe travaille dur pour appliquer cette approche à des domaines aussi divers que la chimie quantique, les mathématiques pures, la conception de matériaux, les prévisions météorologiques, etc., pour résoudre des problèmes fondamentaux et garantir que l’IA profite à l’humanité.
Apprendre lorsque les données sont difficiles à acquérir
La recherche sur la fusion nucléaire est actuellement limitée par la capacité des chercheurs à mener des expériences. Bien qu'il existe des dizaines de tokamaks actifs dans le monde, ce sont des machines coûteuses et très demandées. Par exemple, le TCV ne peut maintenir le plasma dans une seule expérience que pendant trois secondes maximum, après quoi il lui faut 15 minutes pour refroidir et se réinitialiser avant la prochaine tentative. De plus, plusieurs groupes de recherche partagent souvent l’utilisation du tokamak, limitant encore davantage le temps disponible pour les expériences.
Face aux obstacles actuels à l’accès à un tokamak, les chercheurs se sont tournés vers les simulateurs pour faire avancer la recherche. Par exemple, nos partenaires de l'EPFL ont construit un puissant ensemble d'outils de simulation qui modélisent la dynamique des tokamaks. Nous avons pu les utiliser pour permettre à notre système RL d'apprendre à contrôler le TCV en simulation, puis de valider nos résultats sur le TCV réel, démontrant que nous pouvions réussir à sculpter le plasma dans les formes souhaitées. Bien qu’il s’agisse d’un moyen moins coûteux et plus pratique de former nos contrôleurs ; nous avons encore dû surmonter de nombreux obstacles. Par exemple, les simulateurs de plasma sont lents et nécessitent de nombreuses heures de temps informatique pour simuler une seconde de temps réel. De plus, l’état du TCV peut changer de jour en jour, ce qui nous oblige à développer des améliorations algorithmiques, tant physiques que simulées, et à nous adapter aux réalités du matériel.
Réussir en privilégiant la simplicité et la flexibilité
Les systèmes de contrôle du plasma existants sont complexes et nécessitent des contrôleurs séparés pour chacune des 19 bobines magnétiques du TCV. Chaque contrôleur utilise des algorithmes pour estimer les propriétés du plasma en temps réel et ajuster la tension des aimants en conséquence. En revanche, notre architecture utilise un seul réseau neuronal pour contrôler toutes les bobines à la fois, apprenant automatiquement quelles tensions sont les meilleures pour obtenir une configuration plasma directement à partir des capteurs.
À titre de démonstration, nous avons d’abord montré que nous pouvions manipuler de nombreux aspects du plasma avec un seul contrôleur.
Dans la vidéo ci-dessus, nous voyons le plasma au sommet du TCV au moment où notre système prend le contrôle. Notre contrôleur façonne d'abord le plasma selon la forme demandée, puis déplace le plasma vers le bas et le détache des parois, le suspendant au milieu du récipient sur deux pieds. Le plasma est maintenu stationnaire, comme cela serait nécessaire pour mesurer les propriétés du plasma. Enfin, le plasma est ramené au sommet du récipient et détruit en toute sécurité.
Nous avons ensuite créé une gamme de formes de plasma étudiées par les physiciens des plasmas pour leur utilité dans la génération d'énergie. Par exemple, nous avons créé une forme de « flocon de neige » avec de nombreuses « pattes » qui pourraient contribuer à réduire le coût du refroidissement en répartissant l’énergie d’échappement vers différents points de contact sur les parois de la cuve. Nous avons également démontré une forme proche de la proposition de ITER, le tokamak de nouvelle génération en construction, alors que l'EPFL mène des expériences pour prédire le comportement des plasmas dans ITER. Nous avons même fait quelque chose qui n'avait jamais été fait auparavant dans TCV en stabilisant une « gouttelette » où se trouvent simultanément deux plasmas à l'intérieur du vaisseau. Notre système unique a pu trouver des contrôleurs pour toutes ces différentes conditions. Nous avons simplement modifié l'objectif que nous avions demandé et notre algorithme a trouvé de manière autonome un contrôleur approprié.
L’avenir de la fusion et au-delà
Semblable aux progrès que nous avons constatés lors de l’application de l’IA à d’autres domaines scientifiques, notre démonstration réussie du contrôle du tokamak montre le pouvoir de l’IA pour accélérer et assister la science de la fusion, et nous prévoyons une sophistication croissante dans l’utilisation de l’IA à l’avenir. Cette capacité de création autonome de contrôleurs pourrait être utilisée pour concevoir de nouveaux types de tokamaks tout en concevant simultanément leurs contrôleurs. Nos travaux laissent également entrevoir un avenir prometteur pour l’apprentissage par renforcement dans le contrôle de machines complexes. Il est particulièrement passionnant d’envisager des domaines dans lesquels l’IA pourrait augmenter l’expertise humaine, en servant d’outil pour découvrir des approches nouvelles et créatives pour résoudre des problèmes difficiles du monde réel. Nous prévoyons que l’apprentissage par renforcement constituera une technologie transformatrice pour les applications de contrôle industriel et scientifique dans les années à venir, avec des applications allant de l’efficacité énergétique à la médecine personnalisée.