Prolifération des modèles opensource : enjeux et conséquences

L'émergence de LLM opensource comme LLaMA est en train de changer la donne en matière d'innovations en s'affranchissant, en apparence, de la dépendance aux géants du secteur.

Prolifération des modèles opensource : enjeux et conséquences
Source Dall-E

Dans un mémo interne à Google, ayant récemment (opportunément ?) fuité, l'auteur met en perspective les conséquences d'un phénomène émergent à savoir  l'utilisation des modèles opensource dans le domaine de l'IA générative.

Ce mémo est très intéressant car il pointe les avancées récentes de l'IA générative :

Il pointe les faiblesses de Google mais également d'OpenAI de manière alarmiste en matière d'avantages concurrentiels : pourquoi payer pour utiliser des modèles qui sont, par ailleurs, disponibles gratuitement ?

A cela, il met en exergue la rapidité des innovations, en quelques jours parfois, qui réduisent les avantages concurrentiels de Google et d'autres.

Le coup est venu de Meta (ex. Facebook) qui publie depuis longtemps, par l'intermédiaire du Facebook’s AI Research, de nombreuses librairies dans le domaine de l'IA comme Pytorch. En faisant opportunément fuiter les différentes versions de son modèle LLaMA, Meta a ouvert la voie à la prolifération des modèles. Il suffit pour s'en convaincre de visualiser les variantes recensées à fin avril :

ModelSizeTraining data
LLaMA (base model)7B, 13B, 33B, 65BVarious
Alpaca7B, 13B52k GPT-3 instructions
Vicuna7B, 13B70k ChatGPT conversations
Koala-distill7B, 13B117k cleaned ChatGPT conversations
GPT4-x-Alpaca13B20k GPT4 instructions
WizardML7B70k instructions synthesized with ChatGPT/GPT-3
OpenAssistant LLaMA13B, 30B600k human interactions (OpenAssistant Conversations)

source : https://agi-sphere.com/llama-models

Ces différentes variantes correspondent au fine-tuning de LLaMA en utilisant différentes techniques. Une des plus intéressantes est Alpaca, initiée par Stanford qui a utilisé les capacités de GPT pour créer un jeu de données de 52000 exemples à partir d'un jeu de 175 instructions de base. Pour quelques centaines de dollars, et en s'appuyant sur un modèle propriétaire, Llama a été adapté avec ce jeu de données pour donner Alpaca.

L'intérêt de cette approche est de démontrer qu'on peut atteindre une certaine performance pour quelques centaines de dollars en générant un jeu de données synthétique à partir d'autres modèles. En bref, vous pouvez concurrencer Bard ou ChatGPT avec un investissement minime. A l'heure, où Google annonce vouloir mettre de l'IA partout, cette innovation va certainement bouleverser les positions acquises de longue date.

https://lmsys.org/blog/2023-03-30-vicuna/

A partir de cette description idyllique dans un monde libre de concurrents loyaux (:-), on peut se poser plusieurs questions : Quelle sera la réponse des BigTech à ce qui est perçu comme une menace existentielle ? Ce phénomène va-t-il rompre les liens de dépendances avec les LLM ? Quelle responsabilité portent les acteurs qui mettent ce type de technologies entre les mains de tout un chacun ?

La fermeture comme moyen de protection

Loin de faciliter la montée en puissance de l'opensource dans le domaine de l'IA générative, cette guerre des modèles va vraisemblablement entraîner une crispation des géants du web qui, jusqu'à alors, dans le domaine, pratiquaient une politique d'hyper-ouverture parfois surprenante.

D'ailleurs Google, à l'origine du papier ayant formalisé les Tranformers, a donné l'ordre à ses chercheurs, selon le Washington Post, de fermer les écoutilles ; autrement-dit d'arrêter de publiciser leur recherche. Cette nouvelle stratégie, en pleine tempête ChatGPT, vise à préserver, selon le journal, le business model de Google et, par voie de conséquence, son futur.

De la même manière, et comme cela a été souligné à maintes reprises, OpenAI n'a pas rendu publiques des informations jugées stratégiques concernant GPT4.

Meta pourrait continuer à publier ses recherches et ses modèles y voyant, au-delà des aspects philosophiques de l'opensource, un moyen de couper l'herbe sous le pied de ses concurrents. Mais cette politique pourrait brusquement changer dans l'avenir.

Dans tous les cas, la plupart des projets qui s'appuient aujourd'hui sur des modèles pré-entraînés restent dépendant des LLM pour exister.

Les LLM : une barrière à l'entrée quasiment infranchissable aujourd'hui.

L'entraînement des LLM pose actuellement trop d'enjeux pour être accessible à la plupart des organisations.

Il ne faut pas perdre de vue que la puissance des modèles repose sur des facteurs quantitatifs. C'est le nombre de paramètres qui fait la puissance des modèles et, notamment, leur capacité à comprendre le langage ou être utilisés de manière généraliste.

Au-delà de l'enjeu financier que représente l'entraînement, il y a également les enjeux liés à la taille des jeux de données, aux reprises sur erreurs... Ces différents aspects sont autant de barrières, à l'heure actuelle, pour entraîner de nouveaux modèles aussi performants que ceux d'OpenAI par exemple.

Malgré l'accueil enthousiaste de modèles alternatifs comme Alpaca, ils restent en deçà, en terme de performance, des modèles propriétaires comme le démontre un papier récent.

Ce constat, à date, fait que le passage par un LLM est indispensable pour produire un résultat satisfaisant. Par conséquent, le lien avec ces modèles ne peut pas être rompu. Cela signifie que la dépendance au bon vouloir de géants comme Meta reste entière.

Si ces derniers ne sont plus disponibles ou répondent à des conditions drastiques, beaucoup d'acteurs devront se contenter de versions obsolètes.

On m'objectera qu'il existera toujours des acteurs faisant le jeu de l'ouverture comme HuggingFace à qui l'on doit notamment Bloom, parfait exemple de symbiose entre public et privé.

Dans tous les cas, l'existence de LLM aptes à être utilisés dans différentes langues, avec des jeux de données connus est un enjeu stratégique non seulement sur le plan économique mais également sur le plan géo-politique.

Les effets de bord de la prolifération

L'impensée de l'industrie de l'IA Générative réside dans les conséquences de l'utilisation de ces modèles.

Si l'on se concentre sur les conséquences plus larges de la prolifération des modèles, on peut se poser la question des effets délétères que cela engendre à mettre en regard du bénéfice de la liberté et de l'innovation.

En effet, on pensera ce que l'on veut des BigTechs sur les aspects éthiques de l'IA - hypocrisie ou réelle prise de conscience - mais la concentration permet, notamment au régulateur, d'identifier un responsable. Un juste milieu est également de mettre en place des politiques plus ou moins restrictives quant à la diffusion des modèles pré-entraînés en vue d'une réutilisation.

A l'inverse, la prolifération risque de créer un far-west difficile à réguler dans l'avenir. Dans un monde où l'IA générative va bouleverser la notion de vérité, la prolifération consiste à donner l'arme nucléaire à n'importe quel délinquant.

Pour autant, il existe des parades qui sont un mélange de droit souple et de régulations plus contraignantes comme le prépare actuellement le législateur européen.