L'objectif de la prédiction dynamique des propriétés de lien est de prédire la propriété (souvent l'existence) d'un lien entre une paire de nœuds à un horodatage futur.
Échantillonnage de bord négatif. Dans les applications réelles, les véritables contours ne sont pas connus à l’avance. Par conséquent, un grand nombre de paires de nœuds sont interrogées et seules les paires avec les scores les plus élevés sont traitées comme des arêtes. Motivés par cela, nous encadrons la tâche de prédiction de lien comme un problème de classement et échantillonnons plusieurs fronts négatifs pour chaque front positif. En particulier, pour un front montant donné (s, d, t)on corrige le nœud source s et horodatage t et échantillon q différents nœuds de destination d. Pour chaque ensemble de données, q est sélectionné en fonction du compromis entre l’exhaustivité de l’évaluation et le temps d’inférence de l’ensemble de test. Hors de q échantillons négatifs, la moitié est échantillonnée uniformément au hasard, tandis que l'autre moitié est constituée de bords négatifs historiques (bords qui ont été observés dans l'ensemble d'apprentissage mais qui ne sont pas présents au moment t).
Mesure de performance. Nous utilisons le classement réciproque moyen (MRR) filtré comme métrique pour cette tâche, car il est conçu pour les problèmes de classement. Le MRR calcule le rang réciproque du véritable nœud de destination parmi les destinations négatives ou fausses et est couramment utilisé dans les systèmes de recommandation et la littérature sur les graphes de connaissances.
Résultats sur de petits ensembles de données. Sur le petit tgbl-wiki
et tgbl-review
ensembles de données, nous observons que les modèles les plus performants sont assez différents. De plus, les modèles les plus performants sur tgbl-wiki
tels que CAWN et NAT ont une réduction significative des performances sur tgbl-review
. Une explication possible est que le tgbl-review
l'ensemble de données a un indice de surprise beaucoup plus élevé par rapport à l'ensemble de données tgbl-wiki
base de données. L'indice de surprise élevé montre qu'un ratio élevé de bords de l'ensemble de test n'est jamais observé dans l'ensemble d'apprentissage. tgbl-review
nécessite un raisonnement plus inductif. Dans tgbl-review
, GraphMixer et TGAT sont les modèles les plus performants. En raison de leur plus petite taille, nous sommes en mesure d'échantillonner tous les négatifs possibles pour tgbl-wiki
et cent points négatifs pour tgbl-review
par front positif.
La plupart des méthodes manquent de mémoire GPU pour ces ensembles de données. Nous comparons donc TGN, DyRep et Edgebank sur ces ensembles de données en raison de leurs besoins en mémoire GPU inférieurs. Notez que certains ensembles de données tels que tgbl-comment
ou tgbl-flight
s'étendant sur plusieurs années, ce qui pourrait entraîner un changement de distribution sur une longue période.
Connaissances. Comme on l'a vu ci-dessus dans tgbl-wiki
, le nombre d'échantillons négatifs utilisés pour l'évaluation peut avoir un impact significatif sur les performances du modèle : nous constatons une baisse significative des performances dans la plupart des méthodes, lorsque le nombre d'échantillons négatifs augmente de 20 vers toutes les destinations possibles. Cela vérifie qu’en effet, davantage d’échantillons négatifs sont nécessaires pour une évaluation robuste. Curieusement, des méthodes telles que CAWN et Edgebank ont une baisse de performances relativement mineure et nous laissons pour travail futur la recherche des raisons pour lesquelles certaines méthodes sont moins impactées.
Ensuite, nous observons jusqu'à deux ordres de grandeur de différence dans le temps de formation et de validation des méthodes TG, la base heuristique Edgebank étant toujours la plus rapide (car elle est implémentée simplement sous forme de table de hachage). Cela montre que l’amélioration de l’efficacité et de l’évolutivité du modèle constitue une orientation future importante, de sorte que les modèles nouveaux et existants puissent être testés sur de grands ensembles de données fournis dans TGB.