Mise à l'échelle des lois pour la suroptimisation du modèle de récompense

Dernière mise à jour: 2023/12/10 at 4:41 PM

lecture minimale

Dans l’apprentissage par renforcement à partir de la rétroaction humaine, il est courant d’optimiser un modèle de récompense formé pour prédire les préférences humaines. Le modèle de récompense étant un proxy imparfait, une optimisation excessive de sa valeur peut nuire aux performances de la vérité terrain, conformément à la loi de Goodhart. Cet effet a été fréquemment observé, mais n'a pas été soigneusement mesuré en raison du coût de la collecte de données sur les préférences humaines. Dans ce travail, nous utilisons une configuration synthétique dans laquelle un modèle de récompense fixe « de référence » joue le rôle des humains, fournissant des étiquettes utilisées pour former un modèle de récompense proxy. Nous étudions comment le score du modèle de récompense en or change à mesure que nous optimisons par rapport au modèle de récompense par procuration en utilisant soit l'apprentissage par renforcement, soit l'échantillonnage au meilleur des n. Nous constatons que cette relation suit une forme fonctionnelle différente selon la méthode d'optimisation, et que dans les deux cas, ses coefficients évoluent progressivement avec le nombre de paramètres du modèle de récompense. Nous étudions également l'effet sur cette relation de la taille de l'ensemble de données du modèle de récompense, du nombre de paramètres de modèle de récompense et de politique, ainsi que du coefficient de pénalité KL ajouté à la récompense dans la configuration d'apprentissage par renforcement. Nous explorons les implications de ces résultats empiriques pour les considérations théoriques sur l’alignement de l’IA.