Bien que la grande majorité de nos explications obtiennent de mauvais résultats, nous pensons que nous pouvons désormais utiliser les techniques de ML pour améliorer encore notre capacité à produire des explications. Par exemple, nous avons constaté que nous étions en mesure d’améliorer les scores en :
- Itérer sur les explications. Nous pouvons augmenter les scores en demandant à GPT-4 de proposer des contre-exemples possibles, puis en révisant les explications à la lumière de leurs activations.
- Utiliser des modèles plus grands pour donner des explications. Le score moyen augmente à mesure que les capacités du modèle explicatif augmentent. Cependant, même GPT-4 donne des explications pires que celles des humains, ce qui suggère qu’il y a place à l’amélioration.
- Changer l'architecture du modèle expliqué. Les modèles de formation avec différentes fonctions d'activation ont amélioré les scores d'explication.
Nous rendons open source nos ensembles de données et nos outils de visualisation pour les explications écrites en GPT-4 des 307 200 neurones de GPT-2, ainsi que le code d'explication et de notation. utiliser des modèles accessibles au public sur l'API OpenAI. Nous espérons que la communauté des chercheurs développera de nouvelles techniques pour générer des explications plus performantes et de meilleurs outils pour explorer GPT-2 à l’aide d’explications.
Nous avons trouvé plus de 1 000 neurones avec des explications ayant obtenu un score d'au moins 0,8, ce qui signifie que selon GPT-4, ils représentent la majeure partie du comportement d'activation supérieur du neurone. La plupart de ces neurones bien expliqués ne sont pas très intéressants. Cependant, nous avons également découvert de nombreux neurones intéressants que GPT-4 ne comprenait pas. Nous espérons qu’à mesure que les explications s’amélioreront, nous pourrons rapidement découvrir une compréhension qualitative intéressante des calculs du modèle.