Les deux dernières semaines avant la date limite ont été frénétiques. Bien qu'officiellement certains membres de l'équipe disposaient encore de bureaux dans le bâtiment 1945, ils travaillèrent principalement en 1965 car la micro-cuisine disposait d'une meilleure machine à expresso. « Les gens ne dormaient pas », explique Gomez, qui, en tant que stagiaire, vivait dans une frénésie constante de débogage et produisait également les visualisations et les diagrammes pour l'article. Il est courant dans de tels projets de procéder à des ablations, c'est-à-dire de retirer des objets pour voir si ce qui reste est suffisant pour faire le travail.
« Il y avait toutes les combinaisons possibles d'astuces et de modules : lequel est utile, lequel n'aide pas. Déchirons-le. Remplaçons-le par ceci », dit Gomez. « Pourquoi le modèle se comporte-t-il de cette manière contre-intuitive ? Oh, c'est parce qu'on n'a pas pensé à bien faire le masquage. Est-ce que ça marche encore ? OK, passons au suivant. Tous ces composants de ce que nous appelons maintenant le transformateur sont le résultat de ces essais et erreurs itératifs extrêmement rapides. Les ablations, aidées par les mises en œuvre de Shazeer, ont produit « quelque chose de minimaliste », dit Jones. « Noam est un sorcier. »
Vaswani se souvient de s'être écrasée sur un canapé de bureau une nuit alors que l'équipe rédigeait le journal. Alors qu'il regardait les rideaux qui séparaient le canapé du reste de la pièce, il fut frappé par les motifs sur le tissu, qui lui ressemblaient à des synapses et des neurones. Gomez était là et Vaswani lui a dit que ce sur quoi ils travaillaient transcenderait la traduction automatique. « En fin de compte, comme pour le cerveau humain, vous devez réunir toutes ces modalités (parole, audio, vision) sous une seule architecture », dit-il. « J'avais la forte impression que nous étions sur quelque chose de plus général. »
Aux échelons supérieurs de Google, cependant, ce travail était considéré comme un simple projet d’IA intéressant. J'ai demandé à plusieurs personnes de Transformers si leurs patrons les avaient déjà convoqués pour des mises à jour sur le projet. Pas tellement. Mais « nous avons compris que cela représentait potentiellement un gros problème », explique Uszkoreit. « Et cela nous a amené à être obsédés par l'une des phrases de l'article vers la fin, dans laquelle nous commentons les travaux futurs. »
Cette phrase anticipait ce qui pourrait suivre : l’application des modèles de transformateur à pratiquement toutes les formes d’expression humaine. « Nous sommes enthousiasmés par l’avenir des modèles basés sur l’attention », ont-ils écrit. « Nous prévoyons d'étendre le transformateur aux problèmes impliquant des modalités d'entrée et de sortie autres que le texte » et d'étudier « les images, l'audio et la vidéo ».
Quelques nuits avant la date limite, Uszkoreit réalisa qu'il lui fallait un titre. Jones a noté que l'équipe avait abouti à un rejet radical des meilleures pratiques acceptées, notamment les LSTM, pour une technique : l'attention. Les Beatles, se souvient Jones, avaient nommé une chanson « All You Need Is Love ». Pourquoi ne pas appeler le journal « L’attention est tout ce dont vous avez besoin » ?
Les Beatles?
«Je suis britannique», déclare Jones. « Cela a littéralement pris cinq secondes de réflexion. Je ne pensais pas qu'ils l'utiliseraient.
Ils ont continué à collecter les résultats de leurs expériences jusqu’à la date limite. « Les chiffres anglais-français sont arrivés environ cinq minutes avant que nous soumettions le document », explique Parmar. « J'étais assis dans la micro-cuisine en 1965 et je récupérais ce dernier numéro. » Avec à peine deux minutes à perdre, ils envoyèrent le journal.