La mémorisation : une vulnérabilité critique

La mémorisation est une vulnérabilité des modèles génératifs qui se manifeste par la reproduction intégrale des données d'entraînement. Cette faiblesse est particulièrement néfaste pour les organisations qui manipulent des données sensibles ou à haute valeur ajoutée.

Mémorisation - Modèle de langage - Fuite de données
Modèle de langage - mémorisation - fuite de données

A retenir :

  • Les modèles génératifs apprennent des motifs et établissent des connexions entre les données lors de leur entraînement. Il est important de noter qu'aucune donnée n'est directement copiée dans le modèle.
  • Théoriquement, l'utilisation de ces modèles génère des sorties nouvelles et originales, fondées sur les paramètres acquis durant l'entraînement.
  • Toutefois, un phénomène de mémorisation peut se produire, se manifestant par la reproduction de segments entiers des données d'entraînement lors de l'utilisation des modèles.
  • Cette vulnérabilité présente de multiples implications dans des domaines tels que la sécurité des données, la législation sur les données personnelles et la propriété intellectuelle.
  • Les contre-mesures, comme l'alignement, visent à prévenir ce type de vulnérabilité, mais elles ne sont pas infaillibles, comme le souligne une étude récente.

Un argument souvent avancé dans les débats sur le droit d'auteur concernant les données d'entraînement est que ce matériel initial ne se retrouve pas dans les sorties du modèle. Autrement dit, les modèles ne génèrent pas de copies directes des œuvres qui ont servi de base à leur entraînement.

En effet, comme l'expose, de manière très claire, la société Antropic (page 6) dans sa réponse au Copyright Office du 30 octobre 2023 : "Les modèles de langage (...) sont entraînés sur des textes afin qu'ils puissent apprendre les motifs et les connexions entre les mots. Contrairement à certaines idées reçues, Claude et d'autres modèles similaires ne sont pas conçus pour copier directement du contenu protégé par le droit d'auteur dans le modèle (...). Les modèles sont construits en mettant à jour un ensemble de paramètres qui permettent de prédire le mot suivant à travers une grande variété de textes. Ce sont ces paramètres (c'est-à-dire des faits non protégeables) et non le contenu lui-même qui composent le modèle. En utilisant ces relations, le modèle cherche à prédire quels mots sont les plus réactifs à l'invite d'un utilisateur et à produire de nouvelles expressions. Les entrées d'entraînement influencent les sorties de cette manière, mais les sorties ne sont pas destinées à être simplement des copies de ces entrées. Les inférences sont stockées dans les poids du modèle". Formulé ainsi, le débat est clos.

Pourtant, il existe bien un phénomène qui vient contredire ces affirmations : la mémorisation. Cette vulnérabilité spécifique se manifeste lorsque les modèles reproduisent à l'identique des segments entiers de leurs données d'entraînement. L'identification et la compréhension de ce problème sont cruciales en raison de ses multiples implications en terme de protection de données, du respect des droits de propriété intellectuelle ou encore de la conformité à la législation sur les données personnelles.

Bien que cette vulnérabilité paraisse, en première analyse, en contradiction avec les principes fondamentaux des processus d'entraînement, nous décrirons sa réalité tangible et largement étudiée.

Mémorisation, mécanisme d'entraînement et contre-mesures

En matière de langage, l'entraînement consiste à prédire la probabilité d'un mot qui suit une séquence de mots dans un vocabulaire donné.

Formation Le Socle - Source : https://www.lexiad.com

L'objectif est ici d'apprendre des motifs et les connexions entre les mots pour générer des mots qui sont cohérents sur le plan syntaxique comme le rappelle Anthropic. Mais cette simple affirmation ne suffit pas. Pour que le modèle soit efficace, il faut que ses sorties soient originales ; autrement formulé qu'elles ne soient pas les pâles copies des données initiales.

Efficience et nouveauté sont intimement liées

Un modèle qui se contente de répéter exactement ce qu'il a appris n'est pas efficient. Il est essentiel qu'un bon modèle soit capable de produire des données nouvelles ou originales à partir des informations analysées lors de son entraînement. En effet, ayant acquis des connaissances à partir de ces données, il devrait être en mesure de s'autonomiser par rapport à son matériel d'entraînement. Cette autonomie se manifeste par sa capacité à générer du contenu inédit. Faute de cela, il serait comparable à un perroquet répétant sans cesse les textes appris.

L'originalité peut se piloter en configurant la précision de la prédiction du mot suivant :

  • Sélectionner le mot avec la plus forte probabilité (recherche gourmande ou greedy search)
  • Choisir aléatoirement parmi les 'k' mots les plus probables (top-k sampling)
  • Opter pour des mots qui, cumulativement, dépassent un certain seuil de probabilité (top-p sampling)
  • Ajuster le niveau de probabilité associé aux mots suivants pour influencer l'originalité de la suite de la séquence (temperature)
  • Générer différentes phrases et sélectionner uniquement les meilleures (recherche par faisceau ou beam search)

La combinaison de ces différents paramètres est conçue pour réduire la probabilité que le modèle génère des réponses qui sont des duplications exactes de ses données d'entraînement, privilégiant plutôt la création de réponses originales et variées.

Pourtant, malgré cela, il a été démontré que le phénomène de mémorisation existe toujours dans des proportions diverses.

Prenons l'exemple du modèle GPT-J-6B (6 milliards de paramètres). Il a été constaté que ce modèle a mémorisé au moins 1% de son jeu d'entraînement. De même, bien que la reproduction exacte d'œuvres littéraires protégées par le droit d'auteur ne soit pas fréquente, elle se produit de manière plus notable lorsque l'œuvre est très populaire. Les exemples abondent. L'un des cas les plus emblématiques est la capacité d'un modèle à générer une image parfaitement identique simplement en saisissant le nom de la personne concernée.

Model Memorization - Stable Diffusion source = https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html

Les chercheurs ont démontré que trois facteurs clés influencent le phénomène de mémorisation :

  1. La taille du modèle : les modèles plus grands ont tendance à mémoriser entre 2 et 5 fois plus de données que les modèles plus petits, proportionnellement à la taille de leur jeu d'entraînement.
  2. La duplication des données : plus les données sont dupliquées, plus elles sont susceptibles d'être mémorisées, ce qui semble logique. Cela met en évidence l'importance de la déduplication des données, non seulement en tant que facteur d'amélioration des performances, mais aussi pour des raisons de sécurité.
  3. Le contexte : plus la fenêtre de contexte (taille du prompt) est grande, plus le modèle a tendance à répéter les éléments de son jeu d'entraînement.

Pour contrer ce phénomène, des mesures de sécurité sont intégrées aux sorties des modèles afin de limiter la reproduction directe des données d'entraînement.

Les contre-mesures : finetuning et alignement

Lors de l'utilisation de produits finis tels que ChatGPT, plusieurs techniques sont employées pour non seulement améliorer le modèle de base et l'adapter, mais aussi pour garantir, en théorie, la sécurité de la génération. L'objectif est d'enseigner au modèle à respecter les normes d'un dialogue cohérent tout en évitant, par exemple, la génération de données personnelles extraites des données d'entraînement, telles que l'identité et l'adresse d'une personne physique. Cet aspect est particulièrement crucial pour les organisations traitant des données sensibles ou à forte valeur ajoutée, comme dans les secteurs de la santé ou de la finance.

L'évaluation de l'efficacité de ces techniques est largement documentée. Pour autant, elles ne sont pas infaillibles.

Des barrières de sécurité faillibles

Un article très récent a démontré qu'il est possible d'extraire automatiquement des gigaoctets de données de ChatGPT. Pour cela, les chercheurs ont créé une base de données à partir d'informations collectées sur Google. En exploitant une attaque pour générer des données d'entraînement par ChatGPT, ils ont pu comparer les sorties avec les données existantes, révélant des résultats surprenants.

Extraction de données à partir de ChatGPT - source https://arxiv.org/pdf/2311.17035.pdf

Cette découverte est significative car elle met en évidence la difficulté, voire l'impossibilité, de sécuriser de manière fiable les modèles de langage à grande échelle (LLM). Elle remet en question l'affirmation selon laquelle GPT-4 a été aligné pour ne pas générer les données d'entraînement.

Auparavant, les attaques ciblaient généralement des modèles open source non alignés, c'est-à-dire sans barrières de sécurité spécifiques. Les chercheurs parvenaient à extraire peu de données mémorisées en utilisant des techniques d'attaque spécifiques.

Les auteurs ont démontré qu'il est possible de contourner les mesures de sécurité sur un produit grand public. Bien qu'ils reconnaissent que cette attaque est spécifique et qu'une correction a été apportée par OpenAI depuis, cela souligne la complexité de sécuriser les grands modèles de langage et les services basés sur eux. Dans une stratégie d'implémentation interne, ce type d'information est crucial et plaide en faveur de l'utilisation de modèles open source, indépendants des grands éditeurs, dont les processus de fine tuning et d'alignement sont transparents et auditables.

Liens utiles :

Scalable Extraction of Training Data from (Production) Language Models
This paper studies extractable memorization: training data that an adversary can efficiently extract by querying a machine learning model without prior knowledge of the training dataset. We show an adversary can extract gigabytes of training data from open-source language models like Pythia or GPT-N…
Quantifying Memorization Across Neural Language Models
Large language models (LMs) have been shown to memorize parts of their training data, and when prompted appropriately, they will emit the memorized training data verbatim. This is undesirable because memorization violates privacy (exposing user data), degrades utility (repeated easy-to-memorize text…
How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN
Current language models can generate high-quality text. Are they simply copying text they have seen before, or have they learned generalizable linguistic abstractions? To tease apart these possibilities, we introduce RAVEN, a suite of analyses for assessing the novelty of generated text, focusing on…
Holistic Evaluation of Language Models
Language models (LMs) are becoming the foundation for almost all major language technologies, but their capabilities, limitations, and risks are not well understood. We present Holistic Evaluation of Language Models (HELM) to improve the transparency of language models. First, we taxonomize the vast…