Référence

Glossaire de l'IA

Les termes de l'IA expliqués en français, sans jargon inutile ni promesse marketing. 43 définitions, à jour et vérifiables, pour suivre les comparatifs de Joute sans rester sur le bord.

Termes définis

Catégories

147

Liens internes

19/26

Lettres couvertes

Concepts

Agent IA

Un agent IA est un système qui ne se contente pas de répondre : il décompose un objectif en étapes, choisit des outils, exécute des actions et observe les résultats avant de continuer. Un agent de code peut ainsi lire des fichiers, lancer des tests et corriger le code en boucle. L'autonomie a un revers : une erreur de raisonnement peut se propager sur plusieurs étapes sans contrôle humain.

Voir aussiAgentic engineer (ingénieur agentique)MCP (Model Context Protocol)Raisonnement (reasoning)IDE IA

Vocabulaire Joute

Agentic engineer (ingénieur agentique)

L'agentic engineer est un profil de développeur qui pilote des agents IA tout en gardant la maîtrise de l'architecture, des tests et de la qualité du code. À la différence du vibe coder, il lit ce que l'IA produit, sait l'évaluer et reprendre la main. Chez Joute, c'est l'un des deux profils de référence pour situer un outil. La devise associée : déléguer l'exécution, pas la compréhension.

Voir aussiVibe coding Agent IA IDE IA Catégorie : IA pour coder

Usage & pratique

Appel de fonction (function calling)

Le function calling permet à un modèle de demander l'exécution d'un outil externe (recherche web, calcul, requête API) en produisant un appel structuré, puis d'intégrer le résultat à sa réponse. C'est le mécanisme de base des agents : il relie le langage à des actions réelles. Le protocole MCP standardise cette connexion aux outils.

Voir aussiAgent IA MCP (Model Context Protocol)RAG (génération augmentée par récupération)

Infrastructure

Base vectorielle

Une base vectorielle stocke des textes sous forme d'embeddings et retrouve les plus proches d'une requête par similarité. C'est le moteur de recherche derrière le RAG : on y indexe des documents pour ensuite alimenter un LLM avec les passages pertinents. Pinecone, Weaviate ou pgvector en sont des exemples.

Voir aussiEmbedding (vecteur sémantique)RAG (génération augmentée par récupération)/categorie/mcp

Usage & pratique

Benchmark

Un benchmark est un jeu de tests standardisé servant à comparer les modèles sur une tâche : code, mathématiques, compréhension. Il donne un repère chiffré, utile mais limité. Un modèle peut être optimisé pour bien figurer sur un benchmark sans être meilleur en usage réel, et certains jeux de test finissent par fuiter dans les données d'entraînement.

Voir aussiLLM (grand modèle de langage)Raisonnement (reasoning)Notre méthode

Usage & pratique

Chaîne de pensée (chain-of-thought)

La chaîne de pensée invite un modèle à détailler son raisonnement étape par étape avant de conclure, ce qui améliore les tâches de logique et de calcul. Les modèles dits de raisonnement en font un usage interne et structuré. À noter : le raisonnement affiché n'est pas toujours le vrai chemin suivi par le modèle.

Voir aussiRaisonnement (reasoning)Prompt et prompt engineering Few-shot (et zero-shot)

Modèles & architecture

Contexte (fenêtre de contexte)

La fenêtre de contexte est la quantité maximale de texte qu'un modèle peut prendre en compte en une seule fois : la consigne, l'historique de conversation et les documents fournis. Elle se mesure en tokens. Au-delà de cette limite, le modèle oublie le début de l'échange. Une fenêtre large permet d'analyser un long document, mais ne garantit pas que le modèle exploite bien chaque partie.

Voir aussiToken LLM (grand modèle de langage)RAG (génération augmentée par récupération)

Modèles & architecture

Distillation

La distillation entraîne un petit modèle (l'élève) à imiter les sorties d'un grand modèle (le maître). On obtient un modèle plus léger et plus rapide qui conserve une partie des capacités du grand. C'est une raison pour laquelle de petits modèles récents rivalisent avec de plus gros, plus anciens.

Voir aussiParamètres Inférence Benchmark

Usage & pratique

Échantillonnage (top-p, top-k)

À chaque mot, un LLM produit une distribution de probabilités sur les tokens possibles ; l'échantillonnage décide lequel choisir. Top-k limite le choix aux k tokens les plus probables, top-p (nucleus) aux tokens couvrant une masse de probabilité donnée. Ces réglages, avec la température, contrôlent l'équilibre entre fiabilité et variété.

Voir aussiTempérature Token Inférence

Concepts

Embedding (vecteur sémantique)

Un embedding est la représentation d'un texte, d'une image ou d'un son sous forme de liste de nombres, un vecteur, qui capture son sens. Deux contenus proches en sens ont des vecteurs proches dans l'espace. Les embeddings rendent possibles la recherche sémantique, les recommandations et le RAG.

Voir aussiRAG (génération augmentée par récupération)Inférence

Modèles & architecture

Fenêtre de contexte

La fenêtre de contexte est la quantité maximale de texte (mesurée en tokens) qu'un modèle peut traiter d'un coup, prompt et réponse compris. Elle va de quelques milliers à plus d'un million de tokens selon les modèles. Une grande fenêtre n'est pas une mémoire : tout ce qui en sort est oublié, et la qualité d'usage du contexte se dégrade souvent au milieu de très longues entrées.

Voir aussiContexte (fenêtre de contexte)Token Mécanisme d'attention RAG (génération augmentée par récupération)

Usage & pratique

Few-shot (et zero-shot)

Le few-shot consiste à glisser quelques exemples de la tâche dans le prompt pour guider le modèle, sans le réentraîner. Le zero-shot demande la tâche directement, sans exemple. Donner deux ou trois bons exemples améliore souvent nettement la qualité, à moindre effort qu'un fine-tuning.

Voir aussiPrompt et prompt engineering Fine-tuning (affinage)Chaîne de pensée (chain-of-thought)

Modèles & architecture

Fine-tuning (affinage)

Le fine-tuning consiste à poursuivre l'entraînement d'un modèle déjà existant sur un jeu de données spécifique, pour l'adapter à un ton, un domaine ou un format précis. Il modifie les poids du modèle, contrairement au prompt ou au RAG. C'est utile pour spécialiser un comportement, mais coûteux et vite dépassé quand un nouveau modèle de base sort.

Voir aussiLLM (grand modèle de langage)RAG (génération augmentée par récupération)Open source et poids ouverts Risque d'obsolescence

Modèles & architecture

GAN (réseau antagoniste)

Un GAN oppose deux réseaux : un générateur qui fabrique des images et un discriminateur qui tente de distinguer le vrai du faux. Ils s'améliorent mutuellement. Cette approche, dominante avant les modèles de diffusion, reste utilisée pour certains usages comme l'upscaling ou les visages synthétiques.

Voir aussiModèle de diffusion Génération d'images Multimodal

Usage & pratique

Garde-fous (guardrails)

Les garde-fous sont les filtres et règles qui encadrent ce qu'un modèle accepte de produire : refus de contenus dangereux, validation des sorties, limites d'action pour un agent. Ils sont nécessaires en production mais imparfaits, contournables par jailbreak ou injection de prompt, et parfois trop zélés au point de bloquer des usages légitimes.

Voir aussiJailbreak Injection de prompt Agent IA

Usage & pratique

Génération d'images

La génération d'images crée des visuels à partir d'une description textuelle, le plus souvent au moyen de modèles de diffusion qui partent d'un bruit aléatoire et le débruitent étape par étape. Midjourney, Flux et Ideogram en sont des exemples. Les points sensibles restent le rendu du texte dans l'image, la cohérence d'un personnage d'une image à l'autre et les questions de droits d'auteur sur les données d'entraînement.

Voir aussiMultimodal Catégorie : IA pour l'image Fiche outil : Midjourney Fiche outil : Flux

Infrastructure

GPU

Le GPU, processeur graphique, est le matériel qui exécute les calculs massivement parallèles dont l'IA a besoin, à l'entraînement comme à l'inférence. Sa disponibilité et son prix conditionnent le coût des modèles. La dépendance du secteur à un petit nombre de fabricants de GPU est un facteur économique majeur de l'IA.

Voir aussiInférence Open source et poids ouverts

Concepts

Hallucination

Une hallucination est une réponse fausse qu'un modèle présente avec assurance, comme une citation inventée ou une fonction logicielle inexistante. Elle découle du fonctionnement même des LLM, qui prédisent un texte plausible sans vérifier sa véracité. Aucun modèle n'en est totalement exempt : tout résultat à enjeu doit être vérifié à la source.

Voir aussiLLM (grand modèle de langage)RAG (génération augmentée par récupération)Risque d'obsolescence

Usage & pratique

IDE IA

Un IDE IA est un environnement de développement où l'assistance par intelligence artificielle est native : complétion, génération de code, agents, conversation sur le projet. Cursor et Windsurf en sont des exemples, là où GitHub Copilot s'ajoute à un éditeur existant. L'IDE IA déplace le travail du développeur vers la relecture et le cadrage plutôt que la frappe.

Voir aussiAgent IA Vibe coding MCP (Model Context Protocol)Catégorie : IA pour coder Fiche outil : Cursor

Infrastructure

Inférence

L'inférence est la phase d'utilisation d'un modèle déjà entraîné : on lui envoie une entrée, il produit une sortie. Elle s'oppose à l'entraînement, qui crée le modèle. Chaque réponse d'un assistant IA est une inférence, dont le coût se mesure en calcul et en tokens. C'est là que se joue la vitesse perçue d'un outil.

Voir aussiToken GPU LLM (grand modèle de langage)

Usage & pratique

Injection de prompt

L'injection de prompt consiste à glisser des instructions malveillantes dans un contenu que le modèle va lire (page web, document, e-mail) pour détourner son comportement. C'est la principale faille de sécurité des agents qui naviguent et lisent des sources externes. Aucune parade complète n'existe à ce jour, seulement des atténuations.

Voir aussiJailbreak Agent IA Garde-fous (guardrails)RAG (génération augmentée par récupération)

Concepts

Jailbreak

Un jailbreak est une manipulation de prompt visant à contourner les garde-fous d'un modèle pour lui faire produire un contenu normalement bloqué. Les techniques exploitent souvent un jeu de rôle ou des consignes contradictoires. Les éditeurs corrigent ces failles en continu, mais la sécurité d'un LLM reste un domaine ouvert plutôt qu'un problème résolu.

Voir aussiPrompt et prompt engineering LLM (grand modèle de langage)

Infrastructure

Latence et débit

La latence est le délai avant le premier mot d'une réponse ; le débit, le nombre de tokens générés par seconde. Ces deux mesures déterminent le ressenti d'un assistant et le coût d'un usage à grande échelle. Un gros modèle plus « intelligent » mais lent n'est pas toujours le bon choix pour une tâche temps réel.

Voir aussiInférence GPU Quantification Mixture of Experts (MoE)

Modèles & architecture

LLM (grand modèle de langage)

Un LLM, pour large language model, est un réseau de neurones entraîné à prédire le mot suivant sur d'immenses quantités de texte. De cette tâche simple émergent des capacités de rédaction, de traduction et de raisonnement partiel. GPT, Claude et Gemini sont des LLM. Un LLM ne consulte pas de base de connaissances en direct : il restitue ce que ses paramètres ont encodé pendant l'entraînement.

Voir aussiToken Contexte (fenêtre de contexte)Hallucination Fine-tuning (affinage)Raisonnement (reasoning)

Modèles & architecture

LoRA (fine-tuning léger)

LoRA est une méthode de fine-tuning qui n'ajuste qu'un petit nombre de paramètres additionnels au lieu de réentraîner tout le modèle. Résultat : adapter un modèle à un style ou un domaine devient rapide et peu coûteux, sans GPU de data center. C'est l'approche standard pour personnaliser les modèles d'image open source.

Voir aussiFine-tuning (affinage)Paramètres Open source et poids ouverts Modèle de diffusion

Infrastructure

MCP (Model Context Protocol)

Le MCP, Model Context Protocol, est un standard ouvert qui décrit comment un modèle d'IA se connecte à des outils et des sources de données externes : fichiers, bases, API. Il joue le rôle d'un port universel entre un assistant et son environnement, ce qui évite de recoder une intégration par outil. Claude, Cursor et plusieurs IDE IA le prennent en charge.

Voir aussiAgent IA IDE IA Fiche outil : Claude Code Fiche outil : Cursor

Modèles & architecture

Mécanisme d'attention

L'attention permet à un modèle, pour produire chaque mot, de pondérer la pertinence de tous les autres mots du contexte. C'est elle qui capture les dépendances longue distance dans un texte, là où les architectures précédentes décrochaient. Son coût de calcul croît avec le carré de la longueur du contexte, ce qui explique pourquoi les très longs contextes restent chers.

Voir aussiTransformer Fenêtre de contexte Inférence

Modèles & architecture

Mixture of Experts (MoE)

Un modèle MoE est découpé en sous-réseaux spécialisés, les experts, dont seuls quelques-uns s'activent pour chaque requête. On obtient la capacité d'un très gros modèle pour un coût d'inférence proche d'un plus petit. Mixtral et plusieurs modèles récents reposent sur cette approche.

Voir aussiParamètres Inférence Open source et poids ouverts

Modèles & architecture

Modèle de diffusion

Un modèle de diffusion génère une image (ou une vidéo) en partant d'un bruit aléatoire qu'il débruite progressivement jusqu'à obtenir un visuel cohérent avec la description. C'est l'approche dominante pour la génération d'images depuis Stable Diffusion. Elle offre un bon contrôle mais reste coûteuse en calcul à haute résolution.

Voir aussiGénération d'images GAN (réseau antagoniste)Multimodal

Modèles & architecture

Multimodal

Un modèle multimodal traite plusieurs types de données : texte, image, son, parfois vidéo. Il peut décrire une photo, lire un graphique ou répondre à une question vocale. La plupart des grands modèles récents sont multimodaux par défaut, mais leur niveau varie fortement d'un format à l'autre.

Voir aussiLLM (grand modèle de langage)Génération d'images

Usage & pratique

No-code et générateurs d'applications IA

Le no-code permet de construire un logiciel sans écrire de code, via des interfaces visuelles. Les générateurs d'applications IA, comme Lovable, Bolt ou v0, en sont une évolution : on décrit l'application en langage naturel et l'outil produit une interface fonctionnelle. La limite reste la même que pour le vibe coding : passé le prototype, la maîtrise du code généré redevient nécessaire.

Voir aussiVibe coding IDE IA Fiche outil : Lovable Fiche outil : Bolt

Modèles & architecture

Open source et poids ouverts

Un modèle à poids ouverts est un modèle dont les paramètres sont publiés et téléchargeables, ce qui permet de l'exécuter soi-même, de l'auditer et de l'affiner. La nuance compte : poids ouverts ne signifie pas toujours open source au sens strict, car les données et le code d'entraînement ne sont pas forcément fournis, et la licence peut restreindre l'usage commercial. Llama, Mistral et DeepSeek diffusent des modèles de ce type.

Voir aussiLLM (grand modèle de langage)Fine-tuning (affinage)Fiche outil : Le Chat Fiche outil : DeepSeek

Modèles & architecture

Paramètres

Les paramètres sont les valeurs internes d'un modèle, ajustées pendant l'entraînement, qui encodent ce qu'il « sait ». On les compte en milliards (7B, 70B, 405B). Plus de paramètres permet en général plus de capacités, mais au prix d'un calcul plus lourd. Le nombre de paramètres ne suffit pas à juger un modèle : la qualité des données et de l'entraînement compte autant.

Voir aussiLLM (grand modèle de langage)Transformer Quantification Benchmark

Usage & pratique

Prompt et prompt engineering

Un prompt est l'instruction en langage naturel envoyée à un modèle d'IA. Le prompt engineering désigne la pratique consistant à formuler ces instructions pour obtenir un résultat fiable : préciser le rôle, le format attendu, donner des exemples, fixer des contraintes. Ce n'est pas de la programmation, mais une compétence de cadrage qui change nettement la qualité des réponses.

Voir aussiLLM (grand modèle de langage)Agent IA Jailbreak

Infrastructure

Quantification

La quantification réduit la précision numérique des paramètres d'un modèle (par exemple de 16 à 4 bits) pour diminuer sa taille mémoire et accélérer l'inférence. Elle permet de faire tourner de gros modèles sur du matériel modeste, au prix d'une légère perte de qualité. C'est ce qui rend possible l'exécution locale de LLM sur un PC ordinaire.

Voir aussiInférence GPU Paramètres Open source et poids ouverts

Concepts

RAG (génération augmentée par récupération)

Le RAG, retrieval-augmented generation, est une technique qui va chercher des documents pertinents dans une base externe, puis les fournit au modèle pour qu'il fonde sa réponse dessus. Cela permet de répondre sur des données récentes ou privées sans réentraîner le modèle, et de citer des sources. La qualité du RAG dépend autant de la recherche documentaire que du modèle lui-même.

Voir aussiEmbedding (vecteur sémantique)Contexte (fenêtre de contexte)Hallucination LLM (grand modèle de langage)

Modèles & architecture

Raisonnement (reasoning)

Les modèles de raisonnement génèrent une suite d'étapes intermédiaires avant de donner leur réponse finale, une forme de brouillon interne. Cette approche améliore les résultats sur les problèmes de logique, de mathématiques et de code. Elle augmente le temps de réponse et le coût, et ne supprime pas les erreurs : un raisonnement détaillé peut rester faux.

Voir aussiLLM (grand modèle de langage)Agent IA Inférence Benchmark

Vocabulaire Joute

Risque d'obsolescence

Le risque d'obsolescence est l'indicateur signature de Joute : une note sur 10, distincte de la note de qualité, qui estime la probabilité qu'un outil perde son intérêt à mesure que les grands modèles progressent. Un outil dont la fonction peut être absorbée par ChatGPT, Claude ou Gemini reçoit un risque élevé. L'objectif est concret : éviter de payer un abonnement pour une couche d'interface vouée à disparaître.

Voir aussiLLM (grand modèle de langage)Benchmark Notre méthode

Modèles & architecture

RLHF (apprentissage par renforcement)

Le RLHF aligne un modèle sur les préférences humaines : des annotateurs classent des réponses, et le modèle est ajusté pour produire celles jugées meilleures. C'est l'étape qui transforme un modèle brut, capable mais brut de décoffrage, en assistant utile et poli. Elle introduit aussi des biais propres aux choix de ceux qui annotent.

Voir aussiFine-tuning (affinage)LLM (grand modèle de langage)Hallucination Raisonnement (reasoning)

Usage & pratique

Température

La température règle le degré d'aléatoire dans les réponses d'un modèle. Basse, elle rend les sorties déterministes et prévisibles, utile pour du code ou des faits. Haute, elle favorise la variété et la créativité, au risque d'erreurs. C'est le réglage le plus simple pour ajuster le comportement d'un LLM.

Voir aussiÉchantillonnage (top-p, top-k)Prompt et prompt engineering Hallucination

Modèles & architecture

Token

Un token est l'unité de base que manipule un modèle de langage : un morceau de mot, un mot court ou un signe de ponctuation. En français, un mot vaut souvent un à trois tokens. La tarification des API et la taille de la fenêtre de contexte se comptent en tokens, pas en mots ni en caractères.

Voir aussiLLM (grand modèle de langage)Contexte (fenêtre de contexte)Inférence

Modèles & architecture

Transformer

Le Transformer est l'architecture de réseau de neurones qui sous-tend la quasi-totalité des LLM depuis 2017. Sa nouveauté est le mécanisme d'attention, qui laisse chaque mot pondérer l'importance de tous les autres dans le texte. C'est ce qui a rendu possible l'entraînement à grande échelle et le traitement de longs contextes. Le « T » de GPT signifie Transformer.

Voir aussiMécanisme d'attention LLM (grand modèle de langage)Paramètres Fenêtre de contexte

Concepts

Vibe coding

Le vibe coding désigne une façon de programmer où l'on décrit en langage naturel ce que l'on veut et où l'on accepte le code généré par l'IA sans toujours le relire en détail. L'expression a été popularisée par Andrej Karpathy. Cette approche permet de prototyper très vite, mais reporte la dette technique : le code produit reste à comprendre et à vérifier avant toute mise en production.

Voir aussiAgentic engineer (ingénieur agentique)No-code et générateurs d'applications IA IDE IA Agent IA

Tu connais les termes, et après ?

Trouve l'outil qui matche ton besoin

Le quiz Joute oriente vers une reco précise selon ton besoin, ton niveau et ton budget.

Mini-quiz · 3 questions

1 / 3

Tu veux faire quoi en premier ?

Questions fréquentes

Tout ce qu'on nous demande sur le glossaire.

Combien de termes le glossaire Joute contient ?

43 termes en mai 2026, allant des concepts fondamentaux (LLM, token, embedding) aux notions récentes (MCP, agent IA, vibe coding). On ajoute 3-6 termes par mois selon les sorties marché et les questions remontées.

Quels termes IA chercher en priorité quand on débute ?

Cinq termes incontournables : LLM (large language model), token, contexte, RAG, fine-tuning. Une fois ces 5 acquis, les autres (MCP, agent, vibe coding, etc.) deviennent lisibles. Notre blog Joute contient des guides pratiques par concept.

Comment Joute écrit ses définitions ?

Trois principes : (1) une définition courte qui tient en 2 phrases, (2) un exemple concret d'usage français, (3) les liens vers les outils Joute qui exploitent ce concept. Pas de jargon inutile, pas de réécriture de Wikipédia. La définition est validée par usage réel.

Le glossaire est-il à jour avec les évolutions de l'IA ?

Revue mensuelle. Quand un nouveau concept majeur émerge (MCP en 2024, agents autonomes en 2025), il est ajouté sous 2-4 semaines. Les définitions sont aussi mises à jour quand la définition standard évolue (par exemple le sens de 'agent' a changé entre 2023 et 2026).

Un terme manquant à ajouter ?

Écris à hello@joute.io. On priorise selon les remontées récurrentes.

Un terme à ajouter ?

Le glossaire évolue avec le domaine. Pour comprendre comment Joute note les outils et pourquoi le risque d'obsolescence compte, passe par la méthode.

Lire la méthode