OpenAI a été fondée sur la promesse de créer une intelligence artificielle qui profiterait à toute l’humanité, même si cette IA devient considérablement plus intelligente que ses créateurs. Depuis les débuts de ChatGPT l'année dernière et pendant le congrès de l'entreprise récente crise de gouvernance, ses ambitions commerciales ont été plus importantes. Aujourd’hui, l’entreprise affirme qu’un nouveau groupe de recherche travaillant sur les IA super intelligentes du futur commence à porter ses fruits.
« L'AGI approche à grands pas », déclare Leopold Aschenbrenner, chercheur chez OpenAI impliqué dans l'équipe de recherche Superalignment créée en juillet. « Nous allons voir des modèles surhumains, ils auront de vastes capacités et ils pourraient être très, très dangereux, et nous n'avons pas encore les méthodes pour les contrôler. » OpenAI a annoncé qu'elle consacrerait un cinquième de sa puissance de calcul disponible au projet Superalignment.
Un document de recherche publié aujourd'hui par OpenAI vante les résultats d'expériences conçues pour tester un moyen de laisser un modèle d'IA inférieur guider le comportement d'un modèle beaucoup plus intelligent sans le rendre moins intelligent. Bien que la technologie impliquée soit loin de surpasser la flexibilité des humains, le scénario a été conçu pour tenir compte d’une époque future où les humains devront travailler avec des systèmes d’IA plus intelligents qu’eux.
Les chercheurs d'OpenAI ont examiné le processus, appelé supervision, qui est utilisé pour régler des systèmes comme GPT-4, le grand modèle de langage derrière ChatGPT, pour qu'ils soient plus utiles et moins nuisibles. Actuellement, cela implique que des humains donnent au système d’IA des informations sur les réponses qui sont bonnes et celles qui sont mauvaises. À mesure que l’IA progresse, les chercheurs étudient comment automatiser ce processus pour gagner du temps, mais aussi parce qu’ils pensent qu’il pourrait devenir impossible pour les humains de fournir des commentaires utiles à mesure que l’IA devient plus puissante.
Dans une expérience de contrôle utilisant le générateur de texte GPT-2 d'OpenAI lancé pour la première fois en 2019 pour enseigner GPT-4, le système le plus récent est devenu moins performant et similaire au système inférieur. Les chercheurs ont testé deux idées pour résoudre ce problème. L’une impliquait la formation de modèles de plus en plus grands pour réduire les performances perdues à chaque étape. Dans l'autre, l'équipe a ajouté une modification algorithmique à GPT-4 qui a permis au modèle le plus fort de suivre les conseils du modèle le plus faible sans émousser ses performances autant que cela se produirait normalement. Cela s'est avéré plus efficace, même si les chercheurs admettent que ces méthodes ne garantissent pas que le modèle le plus puissant se comportera parfaitement et ils le décrivent comme un point de départ pour des recherches ultérieures.
« C'est formidable de voir OpenAI s'attaquer de manière proactive au problème du contrôle des IA surhumaines », déclare Dan Hendryks, directeur du Center for AI Safety, une organisation à but non lucratif de San Francisco dédiée à la gestion des risques liés à l'IA. « Nous aurons besoin de nombreuses années d'efforts dévoués pour relever ce défi. »