Recherche
Une récente Document DeepMind sur les risques éthiques et sociaux des modèles de langage identifiés de grands modèles de langage fuite d'informations sensibles sur leurs données de formation comme un risque potentiel que les organisations travaillant sur ces modèles ont la responsabilité de gérer. Un autre article récent montre que des risques similaires en matière de confidentialité peuvent également survenir dans les modèles standard de classification d'images : une empreinte digitale de chaque image d'entraînement individuelle peut être trouvée intégrée dans les paramètres du modèle, et des parties malveillantes pourraient exploiter ces empreintes digitales pour reconstruire les données d'entraînement à partir du modèle.
Les technologies améliorant la confidentialité, telles que la confidentialité différentielle (DP), peuvent être déployées au moment de la formation pour atténuer ces risques, mais elles entraînent souvent une réduction significative des performances du modèle. Dans ce travail, nous faisons des progrès substantiels vers la formation de haute précision des modèles de classification d’images sous confidentialité différentielle.
La confidentialité différentielle était proposé comme cadre mathématique pour saisir l'exigence de protection des enregistrements individuels au cours de l'analyse des données statistiques (y compris la formation de modèles d'apprentissage automatique). Les algorithmes DP protègent les individus de toute déduction sur les caractéristiques qui les rendent uniques (y compris la reconstruction complète ou partielle) en injectant un bruit soigneusement calibré lors du calcul de la statistique ou du modèle souhaité. L'utilisation d'algorithmes DP offre des garanties de confidentialité robustes et rigoureuses, tant en théorie que dans la pratique, et est devenue de facto une référence en matière adoptée par un certain nombre d'acteurs. publique et privé organisations.
L'algorithme DP le plus populaire pour l'apprentissage en profondeur est la descente de gradient stochastique différentiellement privée (DP-SGD), une modification du SGD standard obtenue en découpant les gradients d'exemples individuels et en ajoutant suffisamment de bruit pour masquer la contribution de tout individu à chaque mise à jour du modèle :
Malheureusement, des travaux antérieurs ont montré qu'en pratique, la protection de la vie privée assurée par DP-SGD se fait souvent au prix de modèles nettement moins précis, ce qui constitue un obstacle majeur à l'adoption généralisée de la confidentialité différentielle dans la communauté de l'apprentissage automatique. Selon les preuves empiriques de travaux antérieurs, cette dégradation de l'utilité dans DP-SGD devient plus grave sur les modèles de réseaux neuronaux plus grands, y compris ceux régulièrement utilisés pour obtenir les meilleures performances sur des tests de classification d'images difficiles.
Notre travail étudie ce phénomène et propose une série de modifications simples à la fois à la procédure de formation et à l'architecture du modèle, apportant une amélioration significative de la précision de la formation DP sur des références standard de classification d'images. L'observation la plus frappante issue de nos recherches est que DP-SGD peut être utilisé pour entraîner efficacement des modèles beaucoup plus profonds qu'on ne le pensait auparavant, à condition de s'assurer que les gradients du modèle se comportent bien. Nous pensons que l’augmentation substantielle des performances obtenue par nos recherches a le potentiel de débloquer des applications pratiques de modèles de classification d’images formés avec des garanties formelles de confidentialité.
La figure ci-dessous résume deux de nos principaux résultats : une amélioration d'environ 10 % sur CIFAR-10 par rapport aux travaux précédents lors d'une formation privée sans données supplémentaires, et une précision top-1 de 86,7 % sur ImageNet lors du réglage fin privé d'un modèle pré- formés sur un ensemble de données différent, comblant presque l’écart avec les meilleures performances non privées.
Ces résultats sont obtenus à ε = 8, un paramètre standard pour calibrer le niveau de protection offert par la confidentialité différentielle dans les applications d'apprentissage automatique. Nous nous référons à l'article pour une discussion de ce paramètre, ainsi que des résultats expérimentaux supplémentaires à d'autres valeurs de ε et également sur d'autres ensembles de données. Parallèlement à cet article, nous rendons également notre mise en œuvre ouverte pour permettre à d'autres chercheurs de vérifier nos résultats et de les exploiter. Nous espérons que cette contribution aidera d’autres personnes intéressées à faire de la formation pratique du Programme du diplôme une réalité.
Téléchargez notre implémentation JAX sur GitHub.