Fonctionnement des IA génératives : explication claire des LLM

Par Simon-Pierre Morin

Ce texte a été écrit par un humain assisté par une IAgen pour uniformiser le ton et la graphie du contenu. Les informations ont toutes été validées par des humains experts dans le domaine. L’image d’entête a été générée par une IAgen à partir d’un prompt de l’auteur.

Nous avons vu dans l’article précédent qu’il existe plusieurs modèles d’IAgen.

Il faut comprendre que le principe général reste le même, peu importe le modèle. Même si générer du texte (basé sur un LLM) n’est pas la même opération que générer une image, un son, ou une vidéo, le principe de base reste identique. Sachez cependant que même si certains outils permettent de générer des images, des podcasts, des mindmap, des examens blancs, du texte, et bien d’autres encore, il faut comprendre que derrière, ce sont plusieurs outils différents qui sont à l’œuvre et regroupés de manière transparente pour l’utilisateur.

Quelle est la taille d’un modèle IA génératif?

Bien que la taille et la densité des réseaux de neurones utilisés peuvent varier, l’ordre de grandeur reste similaire, soit plusieurs centaines de milliards de paramètres transformés en vecteurs de dimension de l’ordre de dizaines de milliers d’éléments. Ces vecteurs passent ensuite au travers de plus d’une centaine de couches de l’ordre de dizaines de milliers de neurones chacun pour un total de l’ordre de plusieurs milliards de neurones artificiels. (Ces données sont basées sur les modèles open source de Llama3.1 405B et DeepSeek-V3.)

En bref, il s’agit d’un calcul démentiel et gigantesque à l’échelle humaine.

De nos jours, les modèles ne sont plus calculés en fonction de la taille et de la densité, mais plutôt en termes de paramètres du modèle. Ainsi, Llama3.1 405B signifie Llama version 3.1, 405 milliards de paramètres, et Gemma4 2B signifie Gemma version 4, 2 milliards de paramètres. À titre d’information, au moment d’écrire cet article, le plus petit modèle (Tiny-LLM) est un modèle 10M (10 millions de paramètres) et le plus gros est DeepSeek-V3 671B (671 milliards de paramètres). Il y a toutefois des annonces qui ont été faites de modèles à venir de type MoE dont la taille estimée se situerait dans l’ordre de 1.5T à 2T (soit environ 1.5 à 2 billions de paramètres). Le nombre exact est un secret professionnel et n’a pas été publié publiquement, mais considérant la taille de DeepSeek, cela semble très plausible

Donc comment ça fonctionne?

Une IA doit d’abord interpréter la demande de l’utilisateur. La technique précise pour y arriver change d’une IA à une autre, mais le principe reste de prendre ce qui a été saisi par l’utilisateur, le transformer en jetons numériques utilisables par la machine, et en déduire pour le transformer en vecteur que la machine place dans son espace de domaine pour lui donner un sens. Typiquement, le « tokenizer » est un composant spécialisé (parfois un RNA, parfois un algorithme BPE ou autre), qui décortique l’entrée de l’utilisateur, le vectorise, fait des transformations mathématiques sur le vecteur pour mettre les mots en relation entre eux et se construire un vecteur résultant qui lui représente à la fois le message, l’intention et le sens.

Source | Transformer Explainer: LLM Transformer Model Visually Explained

Il passe par la suite par une série de transformateurs qui tente, par opérations matricielles, de décortiquer le message basé sur différents paramètres de compréhension (sens, intention, domaine, caractérisation, temporisation, profondeur, ton, demande, recherche, etc.).

Source | Transformer Explainer: LLM Transformer Model Visually Explained

Par la suite, selon son type, il construira sa sortie en passant le vecteur de l’utilisateur et sa génération combinée. Dans le cas d’une image, il partira d’un ensemble de pixels aléatoires généré par le « seed » et modifiera ces pixels en déduisant l’arrangement le plus probable pour correspondre à une banque d’images associées aux jetons. Dans le cas de génération de texte, l’IAgen va chercher à trouver le prochain jeton le plus probable de correspondre à un texte fluide. Il va ensuite repasser sa propre réponse partielle dans la même machine pour déduire le jeton suivant et ainsi de suite jusqu’à ce que son prochain jeton soit l’instruction d’arrêt en ajoutant le nouveau jeton à chaque itération.

Certaines IAgen peuvent écrire des tonnes de lignes par défaut alors que d’autres se limitent à des réponses plus succinctes. Il est toujours possible de donner l’instruction à une IAgen de se limiter ou d’être plus verbeux pour modifier la longueur par défaut de ses réponses.

Toujours curieux ? Si le sujet vous intéresse et que vous voulez en apprendre davantage, je vous suggère de visiter les sources suivantes :

Comment fonctionnent réellement les IA génératives ?

Quelle est la taille d’un modèle IA génératif?

Donc comment ça fonctionne?

Bien utiliser l’IA générative en entreprise : bonnes pratiques, risques et limites à connaître

Hallucinations IA : pourquoi les intelligences artificielles se trompent (ce n’est pas un bug)

Qu’est-ce que l’intelligence artificielle et l’IA générative ?

Comprendre l’intelligence artificielle aujourd’hui : une introduction claire aux agents IA

PME manufacturières : quand l’usine intelligente et l’IA passent de la théorie à la réalité

PME manufacturières : usine intelligente et IA, un duo gagnant

Parlons Ensemble de Votre Prochain Grand Projet !

En savoir plus sur nos services

Infrastructure et cybersécurité OT

Logiciels de gestion industrielle

Stratégie numérique industrielle

KURIEUX D’EN SAVOIR PLUS ?