Le mode Joute

L'Arène

Deux IA s'affrontent sur le même prompt. Tu juges à l'aveugle, sans connaître les marques : ça, c'est l'arène jouable, un échantillon de duels. Le classement, lui, est l'agrégat des 139 935 votes réels du dataset ouvert compar:IA, enrichi en temps réel par les votes des visiteurs Joute.

Gemini8,7/1022 €/moisEssayer Gemini

Claude9/1018 €/moisEssayer Claude

139 935

votes réels agrégés

295

duels jouables

100%

vote à l'aveugle

L'arène d'IA en français, sans le biais de marque.

Quand tu choisis ton modèle d'IA, tu te fais avoir par la marque. ChatGPT, Claude, Gemini : les noms portent. L'arène casse ce biais. Tu lis deux réponses au même prompt français, sans savoir qui les a écrites. Tu votes pour la meilleure. Puis on te révèle.

Le format n'est pas inventé par Joute. C'est la méthode compar:IA du Ministère de la Culture : depuis 2024, ils ont collecté 139 935 votes réels sur des centaines de modèles en français, sous Licence Ouverte 2.0. Joute en agrège l'intégralité dans son classement, et te laisse rejouer un échantillon de 295 duels pour te faire ta propre idée.

Tes votes Joute, eux, comptent. Ils s'agrègent côté serveur en temps réel et viennent enrichir le ranking de départ. Plus la communauté Joute grossit, plus le classement reflète l'usage francophone réel, pas seulement le dataset gouvernemental de référence.

Duels 100% réels issus de compar:IA, l'arène d'IA du Ministère de la Culture. Joute ne simule rien.

RaisonnementDuel n°1

Le défi

Bonjour peux tu m'ecrire une equation du premier degré simple et me donner la correction

ACombattant A

Bonjour, bien sûr. Équation : 3x + 5 = 17 Correction (résolution) : 1) Soustraire 5 des deux côtés : 3x = 17, 5 = 12 2) Diviser par 3 : x = 12 / 3 = 4 Vérification : 3·4 + 5 = 12 + 5 = 17 → OK, la solution est x = 4.

BCombattant B

Bonjour ! Voici une équation du premier degré simple : 3x - 5 = 10 Correction étape par étape : 1. Ajouter 5 des deux côtés : 3x - 5 + 5 = 10 + 5 3x = 15 2. Diviser les deux côtés par 3 : 3x / 3 = 15 / 3 x = 5 Vérification : 3(5) - 5 = 15 - 5 = 10. C'est correct ! 😊 Si tu en veux une autre, dis-le-moi !

Rends ton verdict

Le classement

Le classement de l'arène

139 935 votes

Classement bâti sur les 139 935votes réels à l'aveugle du dataset ouvert compar:IA (Ministère de la Culture). Chaque marque agrège tous ses modèles testés, du plus petit au plus grand. Aucune note éditoriale n'entre en compte.

Gemini41%

20 744 / 50 177 duels 2

DeepSeek39%

6 367 / 16 518 duels 3

Claude35%

5 433 / 15 405 duels 4

Grok35%

1 636 / 4 677 duels 5

Le Chat34%

17 048 / 50 695 duels 6

ChatGPT31%

11 259 / 36 509 duels

Le pourcentage est un taux de victoire : la part de duels remportés sur l'ensemble des duels disputés par la marque dans le dataset compar:IA. Le nombre de duels varie d'une marque à l'autre.

Comment ça marche

Trois étapes, une minute par duel.

Tu lis les deux réponses

Même prompt, deux IA, identités cachées. Tu vois A et B, pas leurs noms. Pas de logo, pas de couleur de marque. Juste le texte.

Tu votes pour la meilleure

A gagne, B gagne, égalité, ou les deux faibles. Pas d'enregistrement requis, juste un clic. Le vote est anonyme (hash IP+UA, pas de cookie).

On te révèle, on agrège

Les noms apparaissent : tu vois si ton intuition correspond. Ton vote s'ajoute au classement Joute en temps réel, l'écart entre tes choix et le top devient ton score perso.

Méthodologie du classement

Comment on bâtit le ranking de l'arène.

Le modèle : Bradley-Terry, pas un score brut

On n'additionne pas les victoires. On utilise le modèle statistique Bradley-Terry, le standard pour les classements pair-à-pair (Elo aux échecs, LMSYS Chatbot Arena). Il calcule pour chaque modèle une force latente, telle que la probabilité que A batte B reflète l'écart de forces observé sur les duels passés.

Avantage : un modèle qui bat les forts vaut plus qu'un modèle qui bat les faibles, même à nombre de victoires égal. Limite : il faut un volume minimum de duels par modèle pour que la force soit fiable. On affiche un intervalle de confiance ±5% par défaut.

Les deux signaux combinés

Signal compar:IA : le ranking de base est sourcé des 139 935votes réels du dataset Ministère de la Culture. C'est le prior : une force déjà connue pour chaque modèle.

Signal Joute: tes votes et ceux de la communauté Joute s'agrègent côté serveur (Vercel KV) et viennent ajuster le prior selon une logique bayésienne. Plus on accumule de votes, plus le signal Joute pèse vs le ranking compar:IA initial.

La fraîcheur des données

Le dataset compar:IA est re-synchronisé mensuellement (premier lundi du mois). Les votes Joute sont agrégés en temps réel : ton vote modifie le classement à la seconde où tu cliques. La page affiche la date de dernière synchro en bas du ranking.

Voir la méthode complète Joute →

D'où viennent les duels

Des affrontements 100% réels

Tout vient de compar:IA, le dataset ouvert du Ministère de la Culture : 139 935 votes réels rendus à l'aveugle par des utilisateurs francophones, sous Licence Ouverte 2.0. Le classement de l'arène en est l'agrégat, enrichi en temps réel par les votes Joute. L'arène jouable, elle, te propose un échantillon de 295 duels tirés de ce même dataset, à rejouer et juger toi-même. De vrais prompts, les vraies réponses des modèles, les vrais votes : Joute ne simule rien et ne réécrit rien.

Questions fréquentes

Tout ce qu'on nous demande sur l'arène.

C'est quoi l'arène d'IA de Joute ?

Un test à l'aveugle entre deux modèles d'IA sur le même prompt en français. Tu lis les deux réponses sans savoir qui est qui, tu votes pour la meilleure, puis on te révèle les noms. C'est le seul format qui mesure la qualité perçue sans biais de marque.

D'où viennent les duels et les votes ?

Les duels sont tirés du dataset ouvert compar:IA, l'arène d'IA du Ministère de la Culture, sous Licence Ouverte 2.0. Le classement actuel agrège 139 935 votes réels rendus par des utilisateurs francophones. Tes votes Joute s'ajoutent à ce signal en temps réel.

Comment le classement est-il calculé ?

On combine deux signaux. Le signal compar:IA donne le ranking de base (Bradley-Terry sur les 139 935 votes du dataset). Les votes Joute s'agrègent côté serveur et viennent ajuster ce ranking selon un prior bayésien : plus on accumule de votes, plus le signal Joute pèse vs le ranking de départ.

Mes votes sont-ils anonymes ?

Oui. On stocke uniquement un hash de l'IP + user-agent pour limiter le spam (1 vote par duel par hash), aucun cookie de tracking, aucune donnée personnelle. Pas de compte requis, pas d'email demandé.

Pourquoi l'arène plutôt qu'un benchmark classique ?

Les benchmarks (MMLU, GPQA, etc.) mesurent ce que les modèles savent répondre à des QCM. L'arène mesure ce que tu PRÉFÈRES lire, en aveugle, sur des prompts réels du quotidien francophone. C'est complémentaire, et c'est ce qui prédit le mieux la satisfaction d'usage à 6 mois.

À quelle fréquence le classement est-il mis à jour ?

Le pool compar:IA est re-synchronisé mensuellement. Les votes Joute sont agrégés en temps réel : tu peux refresh le classement après ton vote, ton signal est déjà intégré.

La suite

Le ranking évolue chaque semaine, ne le rate pas.

On envoie un récap mensuel : qui monte, qui descend, et les modèles qui s'effondrent quand on enlève le biais de marque. Pas de spam, désinscription en un clic.

S'abonner au récap mensuel →Comparer 2 IA en détail