« Notre nouveau LLM bat GPT dans tous les benchmarks ! »
Il est de plus en plus courant d’entendre des affirmations audacieuses comme celle-ci, car le battage médiatique autour des LLM est énorme. De nouveaux modèles apparaissent chaque semaine, et actuellement tout le monde essaie de rivaliser avec GPT-4, qui reste le LLM le plus puissant.
L'analyse comparative est un élément essentiel de l'évaluation des progrès dans les grands modèles de langage.
Des repères comme MMLU et HellaSwag sont la norme pour évaluer les modèles de langage sur des compétences telles que le raisonnement et la compréhension. Les scores donnent un aperçu des progrès réalisés, avec de nouveaux résultats de pointe considérés comme des avancées. Les LLM sont généralement évalués dans un cadre zéro-shot, sans formation explicite sur l'ensemble de test, pour évaluer leurs capacités générales.
Cet article montre à quel point il est facile de manipuler les résultats de référence et propose des suggestions pour maintenir l'intégrité de l'évaluation.
Le problème des benchmarks
Souvent, les critères de référence ne reflètent pas leur utilité dans des scénarios réels. Le nouveau modèle de Google, Gemini Ultra, obtient des scores 90,04% sur MMLU. Bien qu'il s'agisse d'un score impressionnant, si l'on examine de plus près la méthodologie d'évaluation, il est CoT@32 (chaîne de pensée avec 32 échantillons). Cela signifie que nous devons demander 32 fois pour obtenir une précision de 90 % ! La plupart d’entre nous attendent une réponse précise du premier coup, surtout lorsque nous interagissons avec un chatbot.
Malheureusement, cette question n'est que la pointe de l'iceberg de l'évaluation des LLM.
En apprentissage automatique, les modèles sont généralement évalués en mesurant leurs performances sur un ensemble de tests qui n'a pas été utilisé pendant la formation. En règle générale, ce processus permet une estimation impartiale de la façon dont le modèle se généralisera à de nouvelles données.
Les fuites de référence et la contamination des données sont deux termes qui font tous deux référence à un problème préoccupant.: lorsque les données de test s'infiltrent d'une manière ou d'une autre dans les données de pré-entraînement des LLM, conduisant à des performances gonflées. Cela rend les comparaisons entre les LLM injustes et…