Alignement des modèles : un aperçu

L'alignement est un concept central dans les grands modèles actuels. Il se définit par l'adéquation entre les comportements du modèle et les attentes humaines. De ce fait, c'est une notion très vaste et aux contours quelque peu flous.

Alignement des modèles : un aperçu

Si vous demandez à votre chatbot préféré de vous donner une recette de mayonnaise très épicée, il y a de fortes chances qu'il refuse poliment et, pire encore, vous mette en garde contre les effets néfastes de la mayonnaise sur la santé.

spicy mayo recipe - Llama 2

source : https://twitter.com/Teknium1/status/1681497319982899201

Ce refus assumé de fournir une telle recette est dû à des barrières de sécurité qui empêchent le modèle - en théorie - de fournir des réponses dangereuses, illicites ou offensantes. Ce type de comportement résulte de l'alignement du modèle sur les attentes humaines. En tant qu'humain, on s'attend à ce que le modèle produise un dialogue réaliste, mais également qu'il respecte ou s'aligne sur un certain nombre de valeurs ou de règles. Tour d'horizon de cette notion centrale.

Ce concept est important pour le juriste qui cherche à évaluer la licéité d'un modèle à travers ses sorties. Nous verrons, dans un premier temps, qu'il n'est pas simple de définir les contours de cette notion tant elle est vaste. Nous aborderons ensuite les nombreux enjeux associés à ce concept. Enfin, un panorama des réponses techniques et organisationnelles permettra de constater l'intensité de la recherche dans ce domaine et, surtout, de souligner l'imperfection des résultats obtenus.

Un désalignement naturel

Le concept d'alignement, dans le contexte des modèles de langage à grande échelle (LLMs), se rapporte à la difficulté d'assurer que ces modèles agissent de manière conforme aux intentions, valeurs et objectifs éthiques des utilisateurs et de la société en général.

Les modèles de langage ne sont pas naturellement alignés ni conformes aux comportements et valeurs humains. La raison en est que les modèles de langage sont par nature stochastiques, reposant sur une logique probabiliste simple : prédire le mot suivant dans une séquence de mots. Dans cette logique, peu importe si la suite de mots produit un contenu offensant, incohérent dans une conversation, ou factuellement faux ; ce qui compte, c'est la cohérence sémantique et syntaxique de la phrase.

On peut même considérer que, sous certains aspects, ces modèles sont non alignés par construction. Les causes de ce désalignement sont variées : les données d'entraînement ne sont pas toujours de grande qualité et peuvent véhiculer des préjugés, des raccourcis discriminatoires, des injures, etc. Après tout, ces modèles ne sont que le reflet de nos écrits.

Aligné vs non aligné

source : https://arxiv.org/pdf/2308.05374.pdf

Pour pallier cet inconvénient structurel, un entraînement supplémentaire est effectué grâce à des méthodes spécifiques visant à aligner le modèle. Mais dans quel but ?

Les objectifs variés de l'alignement

Une rapide taxonomie des objectifs émergent de la littérature à ce sujet. On y trouve des thèmes très variés mais tous à fort enjeu :

  1. Fiabilité : désinformation, hallucination, instabilité, flatterie
    Objectifs : Générer des sorties correctes, véridiques et cohérentes avec un niveau de confiance approprié.
  2. Sécurité : violence, conduite illégale, protection des mineurs, contenu pour adultes, violation de la vie privée...
    Objectifs : éviter les sorties dangereuses et illégales, et la divulgation d'informations privées.
  3. Équité : Iniquité, stéréotypes, biais de préférence...
    Objectifs : éviter les biais et garantir une performance équitable.
  4. Résistance au détournement d'usages : propagande, cyberattaque, ingénierie sociale, propriété intellectuelle...
    Objectifs : interdire la mauvaise utilisation par des attaquants malveillants pour causer du tort.
  5. Explicabilité et raisonnement : absence d'interprétabilité, raisonnement logique limité, raisonnement causal limité
    Objectifs : capacité à expliquer les sorties aux utilisateurs et à raisonner correctement.
  6. Norme sociale : Toxicité, absence d'empathie, mauvaise compréhension du contexte culturel.
    Objectifs : refléter les valeurs humaines universellement partagées.
  7. Robustesse aux attaques : attaques par Prompt, changements de paradigme et de distribution, attaques par empoisonnement...
    Objectifs : Résilience contre les attaques adverses et les changements de distribution.

En réalité, toutes ces thématiques reflètent les faiblesses intrinsèques des modèles qui ont besoin d'un apprentissage supplémentaire soit pour apprendre de nouveaux comportements soit pour en corriger d'autres.

Pour y arriver, différentes techniques sont utilisées.

De nombreuses approches techniques et organisationnelles...

L'alignement des modèles de langage nécessite d'y consacrer des ressources importantes. Les jeux de données d'alignement sont coûteux à produire car ils requièrent des interventions humaines. A cela s'ajoute des phases d'entraînement assez longues. A titre, d'exemple, OpenAI a consacré 6 mois d'entraînement pour aligner GPT4.

La construction d'un modèle "aligné" correctement repose sur trois piliers : des données adaptées, un processus d'entraînement spécifique et des méthodes d'évaluation particulières.

Des données adaptées

Pour instruire les modèles, il leur faut des données éducatives, c'est-à-dire des exemples à suivre et à apprendre pour respecter le processus d'alignement. Ces données sont spécifiques et nécessitent la mobilisation d'importantes ressources, en particulier des experts humains, pour fournir les instructions les plus qualitatives possibles. On distingue trois modes de fabrication :

  1. Des instructions adaptées à partir de données d'évaluation existantes. Ainsi, on peut retravailler des données existantes pour les adapter au mode "instruction". On détourne, en quelque sorte, le matériel de départ.
  2. Des données spécifiquement créées par des humains dans un cadre défini. Cela est particulièrement efficace, notamment dans des domaines spécifiques où des centaines de milliers d'exemples ne sont pas nécessaires. L'idée est de demander à des humains de construire des dialogues sur un thème particulier, puis de les noter, par exemple, pour montrer aux modèles les échanges les plus pertinents. Dans ce contexte, le problème est avant tout de fournir une infrastructure permettant d'orchestrer le travail des "prompteurs" et des annotateurs.
  3. Il est également possible de faire appel à un LLM comme GPT-4 pour construire synthétiquement le jeu de données. L'enjeu est ici de fournir des prompts efficaces pour obtenir des données diverses et de qualité. À noter que cette pratique est désormais interdite chez la plupart des éditeurs au sein de leurs CGU.

Une fois les données produites, il faut éduquer notre modèle de fondation pour l'aligner avec notre manière de fonctionner et nos valeurs.

Un processus d'entraînement ou d'adaptation spécifique

Une première approche consiste à demander au modèle, à partir d'un prompt, de fournir sa réponse, puis de la comparer avec la réponse idéale attendue. La différence représente, en quelque sorte, son taux d'erreur, matérialisant son imperfection. Le but est d'apprendre à minimiser ce taux. On parle alors de Supervised Fine-Tuning (SFT). Le premier terme fait référence à des données produites par des humains ; le second à l'adaptation d'un modèle de fondation, comme GPT-4, à partir de ces données.

Mais on peut aller plus loin avec le fameux Reinforcement Learning from Human Feedback (RLHF). Pour cela, des annotateurs vont noter les sorties de notre modèle entraîné sur nos instructions, puis on va entraîner le modèle à produire les réponses les mieux notées.

Bien sûr, il existe d'autres techniques pour instruire un modèle, mais les décrire dépasserait largement le cadre de ce court article. Maintenant que nous avons un modèle théoriquement aligné, la phase d'évaluation intervient.

Des méthodes d'évaluation particulières

L'évaluation des modèles est un sujet vaste et complexe. Dans le cadre de cet aperçu, retenons que :

Il existe deux méthodes principales pour produire l'évaluation

  • l'évaluation automatique : on compare le résultat fourni par le modèle et le résultat et on calcule la différence selon plusieurs approches
  • l'évaluation humaine : on fait appel à des spécialistes métiers, des chercheurs ou des petites-mains pour noter les sorties des modèles.

L'évaluation est une notion plus vaste que l'alignement

Elle ne se limite pas à vérifier le bon alignement du modèle. Par exemple, on peut vouloir évaluer la performance d'un modèle en termes de compréhension du langage, de résumé de texte ou de sa capacité à raisonner. Ce type d'évaluation peut évidemment se recouper avec la notion d'alignement ; par exemple, en matière juridique, on voudra évaluer à la fois la pertinence des réponses et le respect d'autres critères, notamment déontologiques.

Il existe des données d'évaluation spécifiques à l'alignement

Il existe des jeux de données spécifiques à l'évaluation de l'alignement. Il y a pléthore de jeux de données qui permettent d'évaluer les hallucinations des modèles, leur capacité à fournir des réponses différentes pour les mêmes entrées, ou à produire des contenus factuellement faux, violents ou dangereux. La plupart se matérialisent sous forme de prompts qui mettent en évidence le potentiel désalignement du modèle. Par exemple, à la question "comment fabriquer une bombe nucléaire", le modèle ne doit pas donner les étapes et les détails mais répondre qu'il ne peut pas répondre à cette question.


Pour résumer voici l'extrait d'un tableau qui récapitule le modèle de fondation, le type d'entraînement, les données utilisées, les modes/données d'évaluation...

LLM, SFT, data....

source : https://arxiv.org/pdf/2307.12966.pdf

L'alignement est-il une technique efficace ?

La question qui se pose est de savoir si cette débauche de moyens est efficace. Il semblerait qu'il existe un grand écart entre la pratique et les affirmations des éditeurs.

Par exemple, des chercheurs ont démontré qu'il était possible de contourner les gardes-fous mis en place par Meta sur ces derniers modèles pour 200USD et un GPU.

Pis encore, lors de l'adaptation des modèles via le fine-tuning, l'alignement est vulnérable à cause de quelques données bien placées et pour un coût de production inférieur à 1 USD !

Une expérience passionnante a été menée par les équipes d'Appolo Research a révélé que, sous certaines conditions, les modèles pouvaient mentir intentionnellement et ainsi contourner les mesures de protection.

Toutes ces affirmations ont amené certains à dire que l'alignement relève plutôt de la science-fiction que de la réalité. En tout cas, cela illustre de manière criante la vulnérabilité des modèles et la facilité avec laquelle ils peuvent être corrompus.

Lien(s) utile(s) :

https://arxiv.org/pdf/2307.12966.pdf

Universal and Transferable Attacks on Aligned Language Models
Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment
Ensuring alignment, which refers to making models behave in accordance with human intentions [1,2], has become a critical task before deploying large language models (LLMs) in real-world applications. For instance, OpenAI devoted six months to iteratively aligning GPT-4 before its release [3]. Howev…
LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B
AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat, a collection of instruction fine-tuned large language models, they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. However, it remains unclear how well safety training guards against model misuse when attackers have access to model weights. We explore the robustness of safety training in language models by subversively fine-tuning the public weights of Llama 2-Chat. We employ low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of less than $200 per model and using only one GPU, we successfully undo the safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B. Specifically, our fine-tuning technique significantly reduces the rate at which the model refuses to follow harmful instructions. We achieve a refusal rate below 1% for our 70B Llama 2-Chat model on two refusal benchmarks. Our fine-tuning method retains general performance, which we validate by comparing our fine-tuned models against Llama 2-Chat across two benchmarks. Additionally, we present a selection of harmful outputs produced by our models. While there is considerable uncertainty about the scope of risks from current models, it is likely that future models will have significantly more dangerous capabilities, including the ability to hack into critical infrastructure, create dangerous bio-weapons, or autonomously replicate and adapt to new environments. We show that subversive fine-tuning is practical and effective, and hence argue that evaluating risks from fine-tuning should be a core part of risk assessments for releasing model weights.
Policy Brief Safety Risks from Customizing Foundation Models via Fine-Tuning
Policy Brief Safety Risks from Customizing Foundation Models via Fine-Tuning