Nous avons formé un modèle pour atteindre un nouvel état de l'art en matière de résolution de problèmes mathématiques en récompensant chaque étape correcte du raisonnement (« supervision du processus ») au lieu de simplement récompenser la bonne réponse finale (« supervision des résultats »). En plus d'améliorer les performances par rapport à la supervision des résultats, la supervision des processus présente également un avantage important en matière d'alignement : elle entraîne directement le modèle à produire une chaîne de pensée approuvée par les humains.
Améliorer le raisonnement mathématique avec la supervision des processus
Partagez cet article
laissez un commentaire