L’année dernière, l’équipe a commencé à expérimenter un petit modèle utilisant une seule couche de neurones. (Les LLM sophistiqués comportent des dizaines de couches.) L'espoir était que, dans le cadre le plus simple possible, ils puissent découvrir des modèles qui désignent des caractéristiques. Ils ont mené d’innombrables expériences sans succès. « Nous avons essayé plein de trucs, et rien ne fonctionnait. Cela ressemblait à un tas d'ordures aléatoires », explique Tom Henighan, membre de l'équipe technique d'Anthropic. Ensuite, une exécution baptisée « Johnny » (chaque expérience s'est vu attribuer un nom aléatoire) a commencé à associer des modèles neuronaux aux concepts apparaissant dans ses résultats.
«Chris l'a regardé et il s'est dit : 'Putain de merde.' Cela a l'air génial », dit Henighan, qui était également stupéfait. « Je l'ai regardé et je me suis dit : 'Oh, wow, attends, est-ce que ça marche ?' »
Soudain, les chercheurs ont pu identifier les caractéristiques codées par un groupe de neurones. Ils pourraient regarder dans la boîte noire. Henighan dit avoir identifié les cinq premières caractéristiques qu'il a examinées. Un groupe de neurones signifiait des textes russes. Un autre était associé aux fonctions mathématiques du langage informatique Python. Et ainsi de suite.
Une fois qu'ils ont montré qu'ils pouvaient identifier les caractéristiques dans le petit modèle, les chercheurs se sont attelés à la tâche la plus délicate consistant à décoder un LLM grandeur nature dans la nature. Ils ont utilisé Claude Sonnet, la version de résistance moyenne des trois modèles actuels d'Anthropic. Cela a fonctionné aussi. Une caractéristique qui les a marqués était associée au Golden Gate Bridge. Ils ont cartographié l'ensemble des neurones qui, lorsqu'ils étaient activés ensemble, indiquaient que Claude « réfléchissait » à la structure massive qui relie San Francisco au comté de Marin. De plus, lorsque des ensembles similaires de neurones se déclenchaient, ils évoquaient des sujets adjacents au Golden Gate Bridge : Alcatraz, le gouverneur de Californie Gavin Newsom et le film d'Hitchcock. vertige, qui se déroule à San Francisco. Au total, l'équipe a identifié des millions de fonctionnalités, une sorte de pierre de Rosette pour décoder le réseau neuronal de Claude. De nombreuses fonctionnalités étaient liées à la sécurité, notamment « se rapprocher de quelqu'un pour une arrière-pensée », « discussion sur la guerre biologique » et « complots ignobles visant à conquérir le monde ».
L'équipe d'Anthropic est ensuite passée à l'étape suivante : voir si elle pouvait utiliser ces informations pour changer le comportement de Claude. Ils ont commencé à manipuler le réseau neuronal pour augmenter ou diminuer certains concepts – une sorte de chirurgie cérébrale de l’IA, avec le potentiel de rendre les LLM plus sûrs et d’augmenter leur puissance dans des domaines sélectionnés. « Disons que nous avons ce tableau de fonctionnalités. Nous allumons le modèle, l'un d'eux s'allume et nous voyons : « Oh, il pense au Golden Gate Bridge » », explique Shan Carter, un scientifique anthropique de l'équipe. « Alors maintenant, nous nous demandons : et si nous mettions un petit cadran sur tout cela ? Et si nous tournions ce bouton ?
Jusqu’à présent, la réponse à cette question semble être qu’il est très important de tourner le bouton dans la bonne mesure. En supprimant ces fonctionnalités, dit Anthropic, le modèle peut produire des programmes informatiques plus sûrs et réduire les biais. Par exemple, l’équipe a trouvé plusieurs fonctionnalités qui représentaient des pratiques dangereuses, comme un code informatique dangereux, des e-mails frauduleux et des instructions pour fabriquer des produits dangereux.