L'Arène
Deux IA s'affrontent sur le même prompt. Tu juges à l'aveugle, sans connaître les marques : ça, c'est l'arène jouable, un échantillon de duels. Le classement, lui, est l'agrégat des 139 935 votes réels du dataset ouvert compar:IA, enrichi en temps réel par les votes des visiteurs Joute.
L'arène d'IA en français, sans le biais de marque.
Quand tu choisis ton modèle d'IA, tu te fais avoir par la marque. ChatGPT, Claude, Gemini : les noms portent. L'arène casse ce biais. Tu lis deux réponses au même prompt français, sans savoir qui les a écrites. Tu votes pour la meilleure. Puis on te révèle.
Le format n'est pas inventé par Joute. C'est la méthode compar:IA du Ministère de la Culture : depuis 2024, ils ont collecté 139 935 votes réels sur des centaines de modèles en français, sous Licence Ouverte 2.0. Joute en agrège l'intégralité dans son classement, et te laisse rejouer un échantillon de 295 duels pour te faire ta propre idée.
Tes votes Joute, eux, comptent. Ils s'agrègent côté serveur en temps réel et viennent enrichir le ranking de départ. Plus la communauté Joute grossit, plus le classement reflète l'usage francophone réel, pas seulement le dataset gouvernemental de référence.
Bonjour peux tu m'ecrire une equation du premier degré simple et me donner la correction
Bonjour, bien sûr. Équation : 3x + 5 = 17 Correction (résolution) : 1) Soustraire 5 des deux côtés : 3x = 17, 5 = 12 2) Diviser par 3 : x = 12 / 3 = 4 Vérification : 3·4 + 5 = 12 + 5 = 17 → OK, la solution est x = 4.
Bonjour ! Voici une équation du premier degré simple : 3x - 5 = 10 Correction étape par étape : 1. Ajouter 5 des deux côtés : 3x - 5 + 5 = 10 + 5 3x = 15 2. Diviser les deux côtés par 3 : 3x / 3 = 15 / 3 x = 5 Vérification : 3(5) - 5 = 15 - 5 = 10. C'est correct ! 😊 Si tu en veux une autre, dis-le-moi !
Le classement de l'arène
139 935 votesClassement bâti sur les 139 935votes réels à l'aveugle du dataset ouvert compar:IA (Ministère de la Culture). Chaque marque agrège tous ses modèles testés, du plus petit au plus grand. Aucune note éditoriale n'entre en compte.
Le pourcentage est un taux de victoire : la part de duels remportés sur l'ensemble des duels disputés par la marque dans le dataset compar:IA. Le nombre de duels varie d'une marque à l'autre.
Trois étapes, une minute par duel.
Tu lis les deux réponses
Même prompt, deux IA, identités cachées. Tu vois A et B, pas leurs noms. Pas de logo, pas de couleur de marque. Juste le texte.
Tu votes pour la meilleure
A gagne, B gagne, égalité, ou les deux faibles. Pas d'enregistrement requis, juste un clic. Le vote est anonyme (hash IP+UA, pas de cookie).
On te révèle, on agrège
Les noms apparaissent : tu vois si ton intuition correspond. Ton vote s'ajoute au classement Joute en temps réel, l'écart entre tes choix et le top devient ton score perso.
Comment on bâtit le ranking de l'arène.
Le modèle : Bradley-Terry, pas un score brut
On n'additionne pas les victoires. On utilise le modèle statistique Bradley-Terry, le standard pour les classements pair-à-pair (Elo aux échecs, LMSYS Chatbot Arena). Il calcule pour chaque modèle une force latente, telle que la probabilité que A batte B reflète l'écart de forces observé sur les duels passés.
Avantage : un modèle qui bat les forts vaut plus qu'un modèle qui bat les faibles, même à nombre de victoires égal. Limite : il faut un volume minimum de duels par modèle pour que la force soit fiable. On affiche un intervalle de confiance ±5% par défaut.
Les deux signaux combinés
Signal compar:IA : le ranking de base est sourcé des 139 935votes réels du dataset Ministère de la Culture. C'est le prior : une force déjà connue pour chaque modèle.
Signal Joute: tes votes et ceux de la communauté Joute s'agrègent côté serveur (Vercel KV) et viennent ajuster le prior selon une logique bayésienne. Plus on accumule de votes, plus le signal Joute pèse vs le ranking compar:IA initial.
La fraîcheur des données
Le dataset compar:IA est re-synchronisé mensuellement (premier lundi du mois). Les votes Joute sont agrégés en temps réel : ton vote modifie le classement à la seconde où tu cliques. La page affiche la date de dernière synchro en bas du ranking.
Des affrontements 100% réels
Tout vient de compar:IA, le dataset ouvert du Ministère de la Culture : 139 935 votes réels rendus à l'aveugle par des utilisateurs francophones, sous Licence Ouverte 2.0. Le classement de l'arène en est l'agrégat, enrichi en temps réel par les votes Joute. L'arène jouable, elle, te propose un échantillon de 295 duels tirés de ce même dataset, à rejouer et juger toi-même. De vrais prompts, les vraies réponses des modèles, les vrais votes : Joute ne simule rien et ne réécrit rien.
Tout ce qu'on nous demande sur l'arène.
C'est quoi l'arène d'IA de Joute ?
+
D'où viennent les duels et les votes ?
+
Comment le classement est-il calculé ?
+
Mes votes sont-ils anonymes ?
+
Pourquoi l'arène plutôt qu'un benchmark classique ?
+
À quelle fréquence le classement est-il mis à jour ?
+
Le ranking évolue chaque semaine, ne le rate pas.
On envoie un récap mensuel : qui monte, qui descend, et les modèles qui s'effondrent quand on enlève le biais de marque. Pas de spam, désinscription en un clic.

