Remarques
(1) Abramson, J., Ahuja, A., Barr, I., Brussee, A., Carnevale, F., Cassin, M., Chhaparia, R., Clark, S., Damoc, B., Dudzik, A. et Georgiev, P., 2020. Imiter l'intelligence interactive. préimpression arXiv arXiv:2012.05672.
(2) Abramson, J., Ahuja, A., Brussee, A., Carnevale, F., Cassin, M., Fischer, F., Georgiev, P., Goldin, A., Harley, T. et Hill, F., 2021. Création d'agents interactifs multimodaux avec imitation et apprentissage auto-supervisé. préimpression arXiv arXiv:2112.03763.
(3) Abramson, J., Ahuja, A., Carnevale, F., Georgiev, P., Goldin, A., Hung, A., Landon, J., Lillicrap, T., Muldal, A., Richards, B. et Santoro, A., 2022. Évaluation des agents interactifs multimodaux. préimpression arXiv arXiv:2205.13274.
(4) Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., Drain, D., Fort, S., Ganguli, D., Henighan, T. et Joseph, N., 2022. Formation d'un assistant utile et inoffensif avec apprentissage par renforcement à partir de la rétroaction humaine. préimpression arXiv arXiv:2204.05862.
(5) Christiano, PF, Leike, J., Brown, T., Martic, M., Legg, S. et Amodei, D., 2017. Apprentissage par renforcement profond à partir des préférences humaines. Progrès dans les systèmes de traitement de l’information neuronale, 30.