Où les hypothèses derrière l’architecture du modèle à deux tours se brisent – et comment aller au-delà
Modèles à deux tours font partie des choix de conception architecturale les plus courants dans les systèmes de recommandation modernes – l’idée clé est d’avoir une tour qui apprend la pertinence et une deuxième tour, peu profonde, qui apprend les biais d’observation tels que le biais de position.
Dans cet article, nous examinerons de plus près deux hypothèses derrière les modèles à deux tours, en particulier :
- le hypothèse de factorisationsoit l'hypothèse selon laquelle on peut simplement multiplier les probabilités calculées par les deux tours (ou additionner leurs logits), et
- le hypothèse d'indépendance de positionc'est-à-dire l'hypothèse selon laquelle la seule variable qui détermine le biais de position est la position de l'élément lui-même, et non le contexte dans lequel il est imprimé.
Nous verrons où ces deux hypothèses se brisent et comment aller au-delà de ces limitations avec des algorithmes plus récents tels que le modèle MixEM, le modèle Dot Product et XPA.
Commençons par un très bref rappel.
Modèles à deux tours : l'histoire jusqu'à présent
Le principal objectif d’apprentissage des modèles de classement dans les systèmes de recommandation est la pertinence : nous voulons que le modèle prédise le meilleur élément de contenu possible compte tenu du contexte. Ici, le contexte désigne simplement tout ce que nous avons appris sur l'utilisateur, par exemple à partir de son engagement précédent ou de son historique de recherche, selon l'application.
Cependant, les modèles de classement présentent généralement certains biais d'observation, c'est-à-dire la tendance des utilisateurs à s'intéresser plus ou moins à une impression selon la manière dont elle leur est présentée. Le biais d'observation le plus important est le biais de position, c'est-à-dire la tendance des utilisateurs à interagir davantage avec les éléments affichés en premier.
L'idée clé des modèles à deux tours est de former deux « tours », c'est-à-dire des réseaux de neurones, en parallèle, la tour principale pour la pertinence de l'apprentissage, et…