Vers une évaluation impartiale des grands modèles de langage | de Donato Riccio

Vers une évaluation impartiale des grands modèles de langage | de Donato Riccio | décembre 2023

Dernière mise à jour: 2023/12/20 at 1:35 PM

lecture minimale

Contenu

Comment les fuites de référence et la contamination des données nuisent à l'évaluation des LLM Le problème des benchmarks

Comment les fuites de référence et la contamination des données nuisent à l'évaluation des LLM

« Notre nouveau LLM bat GPT dans tous les benchmarks ! »

Il est de plus en plus courant d’entendre des affirmations audacieuses comme celle-ci, car le battage médiatique autour des LLM est énorme. De nouveaux modèles apparaissent chaque semaine, et actuellement tout le monde essaie de rivaliser avec GPT-4, qui reste le LLM le plus puissant.

L'analyse comparative est un élément essentiel de l'évaluation des progrès dans les grands modèles de langage.

Des repères comme MMLU et HellaSwag sont la norme pour évaluer les modèles de langage sur des compétences telles que le raisonnement et la compréhension. Les scores donnent un aperçu des progrès réalisés, avec de nouveaux résultats de pointe considérés comme des avancées. Les LLM sont généralement évalués dans un cadre zéro-shot, sans formation explicite sur l'ensemble de test, pour évaluer leurs capacités générales.

Cet article montre à quel point il est facile de manipuler les résultats de référence et propose des suggestions pour maintenir l'intégrité de l'évaluation.

Le problème des benchmarks

Souvent, les critères de référence ne reflètent pas leur utilité dans des scénarios réels. Le nouveau modèle de Google, Gemini Ultra, obtient des scores 90,04% sur MMLU. Bien qu'il s'agisse d'un score impressionnant, si l'on examine de plus près la méthodologie d'évaluation, il est CoT@32 (chaîne de pensée avec 32 échantillons). Cela signifie que nous devons demander 32 fois pour obtenir une précision de 90 % ! La plupart d’entre nous attendent une réponse précise du premier coup, surtout lorsque nous interagissons avec un chatbot.

Malheureusement, cette question n'est que la pointe de l'iceberg de l'évaluation des LLM.

En apprentissage automatique, les modèles sont généralement évalués en mesurant leurs performances sur un ensemble de tests qui n'a pas été utilisé pendant la formation. En règle générale, ce processus permet une estimation impartiale de la façon dont le modèle se généralisera à de nouvelles données.

Les fuites de référence et la contamination des données sont deux termes qui font tous deux référence à un problème préoccupant.: lorsque les données de test s'infiltrent d'une manière ou d'une autre dans les données de pré-entraînement des LLM, conduisant à des performances gonflées. Cela rend les comparaisons entre les LLM injustes et…

Vers une évaluation impartiale des grands modèles de langage | de Donato Riccio | décembre 2023

Comment les fuites de référence et la contamination des données nuisent à l'évaluation des LLM

Le problème des benchmarks

Laisser un commentaire Annuler la réponse

Rester Connecter

Dernières nouvelles

Google a réduit les aperçus de l'IA dans la recherche avant même son fiasco « Pizza Glue »

OpenAI réagit à la version non censurée de ChatGPT

Cet outil de piratage extrait toutes les données collectées par la nouvelle IA de rappel de Windows

Comment avoir une voix de narrateur ?

Journal IA : Votre Source d’Innovation et d’Inspiration au Quotidien

Mention Légale

Inscrivez-vous à notre newsletter

Comment les fuites de référence et la contamination des données nuisent à l'évaluation des LLM

Le problème des benchmarks

Vous pourriez aussi aimer

Inscrivez-vous à la newsletter quotidienne

Soyez à jour ! Recevez les dernières nouvelles directement dans votre boîte de réception.

Laisser un commentaire Annuler la réponse

Rester Connecter

Dernières nouvelles