Depuis sa sortie, le public joue avec ChatGPT et voit ce qu’il peut faire, mais comment ChatGPT fonctionne-t-il réellement ? Bien que les détails de son fonctionnement interne n’aient pas été publiés, des recherches récentes nous permettent de comprendre ses principes de fonctionnement.

ChatGPT est le dernier modèle de langage d’OpenAI et représente une amélioration significative par rapport à son prédécesseur GPT-3. Comme beaucoup de grands modèles de langage, ChatGPT est capable de générer du texte dans une large gamme de styles et pour différents objectifs, mais avec une précision, des détails et une cohérence remarquablement plus grands. Il représente la prochaine génération de modèles de langage de grande envergure d’OpenAI et est conçu en mettant l’accent sur les conversations interactives.

Les créateurs ont utilisé une combinaison d’apprentissage supervisé et d’apprentissage par renforcement pour affiner ChatGPT, mais c’est le composant d’apprentissage par renforcement qui rend ChatGPT unique. Les créateurs utilisent une technique particulière appelée apprentissage par renforcement à partir du feedback humain (RLHF), qui utilise le feedback humain dans la boucle d’apprentissage pour minimiser les résultats nuisibles, mensongers et/ou biaisés.

Nous allons examiner les limites de GPT-3 et la manière dont elles découlent de son processus de formation, avant d’apprendre le fonctionnement de RLHF et de comprendre comment ChatGPT utilise RLHF pour surmonter ces problèmes. Nous conclurons en examinant certaines des limites de cette méthodologie.

Capacité vs Alignement dans les grands modèles de langage

Dans le contexte de l’apprentissage automatique, le terme capacité fait référence à l’aptitude d’un modèle à effectuer une tâche spécifique ou un ensemble de tâches. La capacité d’un modèle est généralement évaluée en fonction de sa capacité à optimiser sa fonction objectif, l’expression mathématique qui définit le but du modèle.

Par exemple, un modèle conçu pour prédire les cours de la bourse peut avoir une fonction objectif qui mesure la précision des prédictions du modèle. Si le modèle est capable de prédire avec précision l’évolution des cours boursiers dans le temps, il sera considéré comme ayant un niveau élevé de capacité pour cette tâche.

L’alignement, quant à lui, concerne ce que nous voulons réellement que le modèle fasse par rapport à ce pour quoi il est entraîné. Il pose la question « cette fonction objective est-elle conforme à nos intentions ? » et fait référence à la mesure dans laquelle les objectifs et le comportement d’un modèle s’alignent sur les valeurs et les attentes humaines.

Pour prendre un exemple concret et simple, disons que nous formons un classificateur d’oiseaux pour qu’il classe les oiseaux en tant que « moineaux » ou « rouges-gorges » et que nous utilisons la perte logarithmique (qui mesure la différence entre la distribution de probabilité prédite par le modèle et la distribution réelle) comme objectif de formation, même si notre but ultime est une précision de classification élevée.

Le modèle peut avoir une faible perte logarithmique, c’est-à-dire que la capacité du modèle est élevée, mais une faible précision sur l’ensemble de test.

En fait, la perte logarithmique n’est pas parfaitement corrélée à la précision des tâches de classification. Il s’agit d’un exemple de désalignement, où le modèle est capable d’optimiser l’objectif de formation mais est mal aligné avec notre objectif final.

Les modèles comme le GPT-3 original sont mal alignés.

Les grands modèles de langage, tels que GPT-3, sont entraînés sur de grandes quantités de données textuelles provenant d’Internet et sont capables de générer des textes de type humain, mais ils ne produisent pas toujours des résultats conformes aux attentes humaines ou aux valeurs souhaitables. En fait, leur fonction objective est une distribution de probabilité sur des séquences de mots (ou séquences de jetons) qui leur permet de prédire quel est le mot suivant dans une séquence (plus de détails à ce sujet ci-dessous).

Dans les applications pratiques, toutefois, ces modèles sont destinés à effectuer une forme de travail cognitif précieux, et il existe une divergence manifeste entre la manière dont ces modèles sont formés et la manière dont nous aimerions les utiliser. Même si une distribution statistique de séquences de mots calculée par une machine peut être, mathématiquement parlant, un choix très efficace pour modéliser le langage, nous, en tant qu’êtres humains, produisons du langage en choisissant les séquences de texte qui conviennent le mieux à une situation donnée, en utilisant nos connaissances de base et notre bon sens pour guider ce processus. Cela peut poser problème lorsque les modèles de langage sont utilisés dans des applications qui exigent un haut degré de confiance ou de fiabilité, comme les systèmes de dialogue ou les assistants personnels intelligents.

Bien que ces modèles puissants et complexes, entraînés sur d’énormes quantités de données, soient devenus extrêmement performants au cours des dernières années, lorsqu’ils sont utilisés dans des systèmes de production destinés à faciliter la vie des gens, ils ne sont souvent pas à la hauteur de leur potentiel. Le problème d’alignement dans les grands modèles de langage se manifeste généralement comme suit :

  • Manque de serviabilité : ne pas suivre les instructions explicites de l’utilisateur.
  • Hallucinations : le modèle invente des faits inexistants ou erronés.
  • Manque d’interprétabilité : il est difficile pour les humains de comprendre comment le modèle est arrivé à une décision ou une prédiction particulière.
  • Génération de résultats biaisés ou toxiques : un modèle linguistique entraîné sur des données biaisées/toxiques peut les reproduire dans ses résultats, même s’il n’a pas reçu d’instructions explicites à cet effet.

Mais d’où vient ce problème d’alignement, concrètement ? La manière même dont les modèles de langage sont formés est-elle intrinsèquement sujette au désalignement ?

Comment les stratégies de formation des modèles de langue peuvent produire un désalignement :

La prédiction du mot suivant et la modélisation du langage masqué sont les principales techniques utilisées pour la formation des modèles de langage, tels que les modèles de transformateurs. Dans la première approche, le modèle reçoit en entrée une séquence de mots (ou « tokens », c’est-à-dire des parties de mots) et on lui demande de prédire le mot suivant dans la séquence. Par exemple, si le modèle reçoit en entrée la phrase suivante

« Le chat s’est assis sur le »

il pourrait prédire que le mot suivant est « tapis », « chaise » ou « sol », en raison de la forte probabilité d’occurrence de ces mots dans le contexte précédent ; le modèle de langage est en fait capable d’estimer la probabilité de chaque mot possible (dans son vocabulaire) compte tenu de la séquence précédente.

L’approche de modélisation du langage masqué est une variante de la prédiction du prochain jeton, dans laquelle certains des mots de la phrase d’entrée sont remplacés par un jeton spécial, tel que [MASK]. On demande alors au modèle de prédire le mot correct qui doit être inséré à la place du masque. Par exemple, si l’on donne au modèle la phrase suivante

« Le [MASQUE] s’est assis sur le »

en entrée, il peut prédire que le mot suivant est « chat », « chien » ou « lapin ».

L’un des avantages de ces fonctions objectives est qu’elles permettent au modèle d’apprendre la structure statistique du langage, comme les séquences de mots communes et les modèles d’utilisation des mots. Cela aide généralement le modèle à générer des textes plus naturels et plus fluides, et c’est une étape essentielle de la phase de pré-entraînement de tout modèle de langage.

Cependant, ces fonctions objectives peuvent également entraîner des problèmes, essentiellement parce que le modèle n’est pas capable de faire la distinction entre une erreur importante et une erreur sans importance. Pour prendre un exemple très simple, si l’on donne au modèle la phrase en entrée :

« L’Empire romain [MASQUE] avec le règne d’Auguste. »

il pourrait prédire « a commencé » ou « a pris fin », car les deux mots ont une forte probabilité d’occurrence (en effet, les deux phrases sont historiquement correctes), même si le deuxième choix implique un sens très différent.

Plus généralement, ces stratégies d’entraînement peuvent conduire à un désalignement du modèle de langage pour certaines tâches plus complexes, car un modèle qui est seulement entraîné à prédire le mot suivant (ou un mot masqué) dans une séquence de texte, n’apprend pas nécessairement certaines représentations de plus haut niveau de sa signification. En conséquence, le modèle a du mal à se généraliser à des tâches ou des contextes qui nécessitent une compréhension plus profonde du langage.

Les chercheurs et les développeurs travaillent sur différentes approches pour résoudre le problème de l’alignement dans les grands modèles de langage. ChatGPT est basé sur le modèle original GPT-3, mais il a été perfectionné en utilisant le feedback humain pour guider le processus d’apprentissage dans le but spécifique d’atténuer les problèmes de désalignement du modèle. La technique spécifique utilisée, appelée apprentissage par renforcement à partir du feedback humain, est basée sur des recherches universitaires antérieures. ChatGPT représente le premier cas d’utilisation de cette technique pour un modèle mis en production.

Mais comment les créateurs de ChatGPT utilisent-ils exactement le feedback humain pour s’attaquer au problème d’alignement ?

Apprentissage par renforcement à partir du feedback humain
La méthode se compose globalement de trois étapes distinctes :

  1. Étape de mise au point supervisée : un modèle de langage pré-entraîné est mis au point sur une quantité relativement faible de données de démonstration sélectionnées par des étiqueteurs, afin d’apprendre une politique supervisée (le modèle SFT) qui génère des sorties à partir d’une liste sélectionnée d’invites. Ceci représente le modèle de base.
  2. Étape « imiter les préférences humaines » : les étiqueteurs sont invités à voter sur un nombre relativement important de sorties du modèle SFT, créant ainsi un nouvel ensemble de données constitué de données de comparaison. Un nouveau modèle est entraîné sur ce jeu de données. C’est ce qu’on appelle le modèle de récompense (RM).
  3. Étape d’optimisation proximale de la politique (PPO) : le modèle de récompense est utilisé pour affiner et améliorer le modèle SFT. Le résultat de cette étape est le modèle de politique.

L’étape 1 n’a lieu qu’une seule fois, tandis que les étapes 2 et 3 peuvent être itérées en continu : d’autres données de comparaison sont collectées sur le meilleur modèle de politique actuel, qui sont utilisées pour entraîner un nouveau modèle de récompense, puis une nouvelle politique.

Entrons maintenant dans les détails de chaque étape !

Note : Le reste de cet article est basé sur le contenu de l’article d’InstructGPT. Selon OpenAI, ChatGPT a été formé « en utilisant les mêmes méthodes que InstructGPT, mais avec de légères différences dans la configuration de la collecte de données » (source). Malheureusement, les rapports quantitatifs exacts n’ont pas encore été rendus publics pour ChatGPT.

À Lire Aussi :

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici