Qu’est-ce que l’intelligence artificielle et l’IA générative ?
Ce texte a été écrit par un humain assisté par une IAgen pour uniformiser le ton et la graphie du contenu. Les informations ont toutes été validées par des humains experts dans le domaine. L’image d’entête a été générée par une IAgen à partir d’un prompt de l’auteur.
Dans le monde d’aujourd’hui, les agents conversationnels génératifs sont de plus en plus présents. Microsoft Copilot, Google Gemini (anciennement Bard), Claude Sonnet, Grok, ChatGPT, Llama, KimiK2… Il y en a de toutes les sortes pour tous les goûts. Bien utilisés, ces outils peuvent accélérer plusieurs tâches, mais leur utilisation comporte certains risques. Pour bien les comprendre, il faut savoir ce qu’ils sont et comment ils fonctionnent.
Je vous propose donc de partir à la découverte de ce que sont les agents en IA générative dans une série de quatre articles.
Un peu de vocabulaire
Intelligence artificielle
L’intelligence artificielle est devenue un terme générique avec le dos très large, mais il est important de noter qu’il en existe différentes catégories.
Intelligence Artificielle Analytique (IA / AI)
Parfois également référée comme Intelligence Artificielle classique. On y inclut les techniques de logique floue, de réseau de neurones, d’algorithme génétique, de mathématiques discrètes, et de modèles statistiques pour analyser une entrée et pour donner un résultat statistique précis en sortie. Ce qui distingue l’IA de la programmation traditionnelle, c’est que la pondération a été calculée par entraînement automatisé plutôt que manuellement par un humain.
Nous retrouvons ces IA tous les jours sans nous en rendre compte. Un thermostat, un numériseur avec détection de texte (OCR), un GPS, un générateur vocal, certains interrupteurs, certains automates, certains aspirateurs, des stabilisateurs de drone, un système de guidage autonome, et bien d’autres encore. Contrairement à la croyance populaire, nous côtoyons des IA depuis la fin des années 1950. Ce qui a changé, c’est surtout la puissance de calcul et la disponibilité de ces technologies.
Intelligence Artificielle Générative (IAgen / genAI)
Il s’agit de la vague d’outils qui sont apparus dans les années 2020 et qui sont en plein essor au moment d’écrire cet article. Les IAgen sont des modèles prédictifs de production de médias divers (texte, image, musique, son, vidéo, fichier, etc.). Il s’agit d’une suite de traitements mathématiques matriciels et vectoriels complexes, qu’on appelle des transformateurs, afin de calculer le jeton qui sera le plus probable pour poursuivre la génération en cours. La sortie obtenue retourne ensuite dans la « machine » un certain nombre de fois jusqu’à ce que le traitement soit terminé et qu’on ait obtenu le résultat « souhaité ».
Intelligence Artificielle Généralisée (IAG / AGI)
Un rêve pour certains et la crainte pour d’autres. L’IAG est pour le moment purement théorique. Il s’agit d’un modèle possédant toutes les connaissances et pouvant réaliser n’importe quelle tâche de façon 100% autonome sans aucune intervention humaine. Il s’agirait d’un point de singularité où la machine atteindrait une réelle « conscience » et où elle s’améliorerait d’elle-même. Des limites technologiques empêchent l’atteinte de ce palier aujourd’hui, mais plusieurs chercheurs du domaine restent convaincus que cela se produira dans un futur indéterminé (disons que certains sont plus optimistes que d’autres).
Hallucination artificielle
Il s’agit d’erreurs commises par une IA ou une IAgen. Il faut se rappeler que les IAgen sont des modèles statistiques et qu’ils n’ont pas de connaissances réelles du sujet abordé. Il arrive donc régulièrement, en fonction des données d’entraînement et/ou de caractère aléatoire de la génération, que des artéfacts incongrus soient inclus dans la sortie. Ces « erreurs » viennent principalement des biais dus à l’entraînement, du biais de confirmation (la tendance à vouloir confirmer l’utilisateur), mais également du côté aléatoire dans son modèle statistique pour rendre chaque réponse « unique ».
Fonctionnement interne
Jeton (Token)
Il s’agit de l’unité du langage des IA génératives. Un jeton correspond à un nombre représentant une partie d’un mot (suffixe, préfix, racine, etc.) ou un symbole (comme les ponctuations ou caractères spéciaux comme les croisillons, flèches ou émojis) servant à la reconstruction des mots et des phrases.
Paramètres
C’est la structure interne qui définit comment un modèle « réfléchit ». Plus ce nombre est élevé, plus les capacités sont élevées, mais plus les coûts sont également élevés, car ils nécessitent généralement beaucoup plus de ressources. Il existe des stratégies pour réduire le coût des très gros modèles, mais l’essentiel est que ces paramètres sont au cœur du cerveau artificiel pour son raisonnement.
Température
La température est un paramètre qui contrôle le niveau de créativité (ou de prudence) de l’IA. Plus la température est basse, plus l’IA donne des réponses prévisibles et factuelles. Plus elle est élevée, plus l’IA prend de liberté dans ses choix de mots et d’idées. Pour les IAgen « grand public », ce paramètre est généralement caché à l’utilisateur, mais il fait partie du côté aléatoire en jouant sur la distributivité des jetons, ce qui rend chaque réponse « unique » en sortie.
Seed
Le « seed » est l’autre paramètre de facteur aléatoire de la génération. Bien qu’il soit plus visible dans la génération d’image, il est impliqué dans tous les générateurs. Pour les générateurs de texte, il va interagir avec le contexte, la longueur, l’historique de la conversation, etc. Cependant il est à noter qu’il y a une accumulation de ce facteur aléatoire étant donné que la sortie fait plusieurs boucles de passage dans les transformateurs. Donc même si un même « seed » avec le même prompt et la même valeur de température devrait, en théorie, donner la même sortie, ce n’est pas tout à fait le cas. En pratique, de nombreux facteurs rendent la reproduction fidèle de deux sorties très difficile. Les sorties seront très similaires, mais un œil attentif pourra identifier les différences.
Requête (Prompt)
C’est l’instruction qu’on donne à l’IA avec laquelle elle devra travailler. La qualité de la sortie provient en très grande partie de la qualité de la structure de la requête à l’entrée.
Fenêtre de contexte
Il faut le voir comme la mémoire à court terme de l’agent. Il s’agit essentiellement de ce que l’IA est en mesure de percevoir dans une « conversation ». Elle a une limite bien précise. Une fois cette limite atteinte, les informations les plus anciennes sont perdues de vue par l’IA. C’est à ce moment-là qu’on perçoit le manque de cohérence avec le contexte initial que nous avions fixé. Il existe des mécanismes pour tenter de réduire cette « perte de mémoire », comme la compression, les résumés, ou les réinjections, mais il faut comprendre que l’IA aura quand même toujours ses limites.
Réseaux de neurones artificiels (RNA)
Il s’agit d’une technique en intelligence artificielle permettant à une machine de prendre une décision statistique d’après ses données d’entraînement. Pour entraîner un RNA, il faut traditionnellement fournir des données de sorties désirées pour des entrées connues. Le système pondère chacun des neurones pour arriver à ce résultat. En refaisant cette opération sur des millions, voire des milliards de données, on peaufine le modèle qui devient semi-autonome par la suite. Cette technique est utilisée depuis quelques décennies (à plus petite échelle) notamment dans la reconnaissance de texte (OCR) et la reconnaissance d’image.
Transformateur
Les transformateurs sont le cœur de la prédiction de la sortie. Ils passent les connaissances courantes du prompt, des images ou autre, ainsi que la sortie partielle en cours dans un ensemble de transformation mathématique automatisée et des réseaux de neurones spécialisés dans la compréhension de son « espace vectoriel latent ».

Ces modules de traitement ne sont pas autonomes à proprement parler, mais représentent plutôt une séquence permettant d’arriver au résultat voulu. Cette technique d’IA accélère le traitement et permettre de s’améliorer dynamiquement, mais il s’agit avant tout d’un gigantesque calcul statistique.
Modèles de langage
Pour les agents conversationnels génériques, il s’agit de leur centre névralgique. Il existe différents types de modèles. Chacun est un immense modèle statistique indiquant quels jetons sont les plus probables pour suivre chacun des jetons précédents. Les différences majeures sont le nombre de jetons en entrée et en sortie, ainsi que les données d’entraînements utilisées. En voici quelques-uns parmi les plus répandus.
Large Language Model (LLM)
Ces modèles ont été entraînés sur d’immenses banques de textes aléatoires. Leur force réside principalement dans la génération de texte fluide, mais ils ne sont pas spécialisés dans les concepts qu’ils mentionnent. Ils sont les modèles qui incorporent le plus grand nombre de paramètres, mais dont les informations ne sont pas spécialisées afin d’élargir le champ lexical.
Small Language Models (SLM)
Il est maintenant possible de faire tourner des IA génératives nativement sur un téléphone, mais pour ce faire, le modèle a dû être réduit. Le modèle a été étudié de manière à réduire la masse critique du LLM sans perdre la faculté de base requise. Selon le domaine requérant la réduction, il peut s’agir de retirer certains concepts moins communs, ou de réduire le vocabulaire accessible. Dans le second cas, la « diversité » des réponses sera réduite, et pourrait faire penser à son ancêtre de réponses préconstruites par sa limitation de vocabulaire, mais reste très performant pour des instructions courantes.
Modèles spécialistes (ou spécialisés)
Certains agents ont été spécialisés pour un domaine particulier. C’est le cas de la gamme métier de Gemini (exemples : MedLM en médecine, SecLM en cybersécurité, Code Assist, Imagen, Veo, Lyria, et bien d’autres). Leur modèle de langage a donc été spécialisé en réduisant ce modèle et en peaufinant et réduisant considérablement le modèle. Les textes pour l’entraînement se basent sur des ouvrages traitant de sujets bien spécifiques à caractère plus précis du domaine visé. Ceci permet une plus grande précision sur des sujets spécifiques tout en maintenant la performance. Même s’il est possible d’obtenir des hallucinations artificielles, ce type de modèle y est généralement moins sujet (précision de 91,1 % aux examens de licence médicale américaine dans le cas de MedLM).
Mixture of Experts (MoE)
D’autres agents ont été spécialisés dans plusieurs domaines simultanés. Leur modèle de langage est donc très lourd, mais offre la possibilité d’effectuer des recherches croisées entre les domaines. C’est entre autres le cas pour DeepSeek. Afin de réduire la consommation d’énergie, les différents experts se font activer selon le domaine détecté. Le modèle n’est donc pas entièrement actif en tout temps. Cependant, il nécessite énormément d’espace pour stocker les paramètres même s’ils sont inactifs. Il est également possible qu’une mauvaise interprétation de l’intention de l’utilisateur cause une réponse incohérente.
Multimodal Large Language Models (MLLM)
Certaines architectures parleront plutôt de Vision Language Models (VLM). De manière générale, les MLLM permettent d’interpréter non seulement des mots, mais également des pixels et de l’audio dans un même espace conceptuel. Un des pionniers fut DeepMind. Bien que certains préfèrent garder une certaine légèreté en conservant un modèle de type LLM ou SLM, la présence des MLLM dans les outils grand public est devenue presqu’une norme.
Autres types de modèles en rafale
Latent Concept Models (LCM) pour la découverte de sens cachés dans du texte ou de modèles cachés dans des données.
Language Action Models (LAM), utilisé, entre autres, pour des automates ayant des répercussions dans le monde physique (conversion de mot en action)
Masked Language Models (MLM), utilisé dans certains systèmes de Google pour prédire les non-dits par l’utilisateur lors de l’invite afin de comprendre l’intention réelle de l’utilisateur dans sa requête.
Segment Anything Models (SAM), utilisé, entre autres, par Meta pour réagir notamment à des interactions avec l’utilisateur.
Et les agents dans tout ça?
Les agents sont essentiellement un emballage pratique offrant à l’utilisateur une configuration initiale incluant les modèles, des entraînements et les paramètres permettant de faire les différentes générations. Ils peuvent également intégrer des orchestrateurs lorsque l’outil offre de pouvoir effectuer plusieurs tâches distinctes. Par exemple, Gemini permet, entre autres, de faire des calculs, des images, des vidéos, du texte, de la révision, de la programmation ou de l’apprentissage.
