D'autres approches existantes utilisent fréquemment des ensembles de données d'entraînement audio-texte plus petits et plus étroitement appariés,(^référence-1) (^référence-2)(^référence-3) ou utilisez une pré-formation audio large mais non supervisée.(^référence-4)(^référence-5)(^référence-6) Parce que Whisper a été formé sur un ensemble de données vaste et diversifié et n'a été adapté à aucun ensemble de données spécifique, il ne bat pas les modèles spécialisés dans les performances de LibriSpeech, une référence réputée en matière de reconnaissance vocale. Cependant, lorsque nous mesurons les performances de Whisper sur de nombreux ensembles de données divers, nous constatons qu'il est beaucoup plus robuste et commet 50 % d'erreurs en moins que ces modèles.
Environ un tiers de l'ensemble de données audio de Whisper n'est pas en anglais et il est alternativement chargé de transcrire dans la langue d'origine ou de traduire en anglais. Nous trouvons que cette approche est particulièrement efficace pour apprendre la traduction parole-texte et surpasse le SOTA supervisé sur CoVoST2 vers la traduction anglaise zéro-shot.