La qualité des textes comme frein au développement des LLM

Parmi les facteurs de succès de l'IA, les données constituent un enjeu clé. Leur quantité et, surtout, leur qualité, pourraient constituer un frein à l'augmentation de la performance des modèles.

La qualité des textes comme frein au développement des LLM
source : https://arxiv.org/pdf/2211.04325.pdf

Il est généralement admis que trois facteurs influencent la progression des modèles d'IA :

  • l'architecture des modèles qui permettent une meilleure performance lors de l'entraînement et de l'inférence ;
  • la capacité hardware matérialisée par les puces spécialisées comme les GPU ;
  • la disponibilité de grandes quantités de données qualitatives.

Un récent papier "When Will We Run Out of Data?" dresse un panorama assez complet des liens entre avenir des modèles d'IA, notamment les LLM, et jeu de données.

Si l'on considère, selon une expression désormais à la mode, que les données sont la matière première, il est important d'étudier les perspectives à court et moyen terme de cet élément essentiel.

Pour rappel, la performance actuelle des LLM est due, en partie, à un entraînement effectué avec des quantités de données considérables et auto-supervisées, c'est-à-dire ne réclamant pas d'annotation humaine. Or ces données ont déjà été utilisées - pour une partie importante - pour entraîner les modèles actuels et leur rythme de production, notamment pour les données de qualité, ne permet pas de suivre la progression actuelle.

Les auteurs extrapolent ces taux de croissance en utilisant deux méthodes : le taux de croissance historique et l'estimation de la taille optimale de l'ensemble de données nécessaires pour améliorer les modèles à l'avenir.  Ils estiment également le stock total de données non étiquetées disponibles sur Internet au cours des prochaines décennies.

Il est opéré une distinction entre données de haute qualité qui entretiennent un rapport vertueux avec la performance des modèles et contenu de piètre valeur.

On entend par stock de haute qualité :

  • les livres car ils sont généralement écrits par des experts dans un domaine donné et passent par un processus d'édition rigoureux ;
  • les articles scientifiques car ils sont écrits par des chercheurs et passent par un processus d'examen par les pairs ;
  • les articles Wikipedia. L'encyclopédie collaborative est considérée comme une source de données de haute qualité car elle est soumise à un processus d'édition communautaire rigoureux ;
  • les pages webs. Quand elles émanent de sources de référence.

Ces contenus nécessitent du temps pour leur production et une réelle expertise humaine. Les auteurs estiment que l'ensemble des données de haute qualité, qui est à la base des LLM actuels, ne grossit que de 7% par an et que le stock actuel ne dépasse pas une fois en magnitude la taille de la totalité des datasets actuellement disponibles. Cela laisse donc peu de marge de progression.

D'ailleurs, les auteurs estiment que le stock de données linguistiques de haute qualité sera probablement épuisé avant 2026/2027. En revanche, l'ensemble des données textuelles de faible qualité ne sera épuisé que beaucoup plus tard, entre 2030 et 2050.

Ces conclusions sont à remettre en perspective avec les débats actuels sur la place des auteurs dans les nouvelles interfaces de recherche, des dispositifs défensifs mis en place par les géants de la Tech eux-mêmes concernant les données produites et la perspective d'un appauvrissement généralisé des ressources publiées sur le web.