Joute
Joute-Modus

Die Arena

Zwei KIs kämpfen auf demselben Prompt. Du urteilst blind, ohne die Marken zu kennen. Das Ranking ist das Aggregat aus 139.935 echten Votes des offenen compar:IA-Datensatzes, in Echtzeit angereichert durch Joute-Besucher-Votes.

vs
139.935
echte aggregierte Votes
295
spielbare Duelle
100%
Blind-Vote

Die KI-Arena, ohne Markenbias.

Wenn du dein KI-Modell wählst, lässt du dich von der Marke beeinflussen. ChatGPT, Claude, Gemini: Die Namen tragen Gewicht. Die Arena bricht diesen Bias. Du liest zwei Antworten auf denselben Prompt, ohne zu wissen, wer sie geschrieben hat. Du stimmst für die beste ab. Dann enthüllen wir.

Das Format wurde nicht von Joute erfunden. Es ist die Methode von compar:IA des französischen Kulturministeriums: Seit 2024 haben sie 139.935 echte Votes auf Hunderten von Modellen auf Französisch gesammelt, unter Open License 2.0. Joute aggregiert den gesamten Datensatz in seinem Ranking und lässt dich eine Stichprobe von 295 Duellen nachspielen.

Deine Joute-Votes zählen. Sie werden serverseitig in Echtzeit aggregiert und bereichern das Basis-Ranking. Je größer die Joute-Community wird, desto mehr spiegelt das Ranking die echte Nutzung wider.

Duels 100% réels issus de compar:IA, l'arène d'IA du Ministère de la Culture. Joute ne simule rien.
TraductionDuel n°1
Le défi

traduis la phrase d’occitan vers le français : Nos trobèrem dins una polida demòra: vasta, nauta de plafons, amb de travetas de garric ennegridas a força del temps.

ACombattant A

Voici la traduction de cette phrase en français : « Nous nous trouvâmes dans une belle demeure : vaste, haute de plafond, avec des solives de chêne noircies par le temps. » *Notes de traduction pour les nuances :* * Nos trobèrem : C'est un prétérit (passé simple). Dans un contexte plus moderne ou à l'oral, on pourrait traduire par *« Nous nous sommes trouvés »* ou *« Nous nous sommes retrouvés »*. * Polida : Signifie "jolie" ou "belle". * Travetas : C'est le diminutif de *trava* (poutre). Cela désigne de petites poutres, ce qu'on appelle en français des solives ou des poutrelles. * Garric : Désigne une variété de chêne (souvent le chêne kermès ou le chêne vert, typique du sud). Le traduire simplement par "chêne" est le plus naturel en français pour parler de menuiserie. * A força del temps : Peut se traduire par *« par la force du temps »*, *« avec le temps »* ou *« par le temps »*.

BCombattant B

Nous nous retrouvâmes dans une belle demeure : vaste, haute de plafonds, avec des poutres de chêne noircies à force du temps.

Rends ton verdict
Le classement

Le classement de l'arène

139 935 votes

Classement bâti sur les 139 935votes réels à l'aveugle du dataset ouvert compar:IA (Ministère de la Culture). Chaque marque agrège tous ses modèles testés, du plus petit au plus grand. Aucune note éditoriale n'entre en compte.

Le pourcentage est un taux de victoire : la part de duels remportés sur l'ensemble des duels disputés par la marque dans le dataset compar:IA. Le nombre de duels varie d'une marque à l'autre.

So funktioniert es

Drei Schritte, eine Minute pro Duell.

1

Du liest beide Antworten

Gleicher Prompt, zwei KIs, Identitäten versteckt. Du siehst A und B, nicht ihre Namen. Kein Logo, keine Markenfarbe. Nur der Text.

2

Du stimmst für die beste ab

A gewinnt, B gewinnt, Unentschieden oder beide schwach. Keine Registrierung erforderlich, nur ein Klick. Das Vote ist anonym (IP+UA-Hash, kein Cookie).

3

Wir enthüllen und aggregieren

Die Namen erscheinen: Du siehst, ob deine Intuition stimmt. Dein Vote wird dem Joute-Ranking in Echtzeit hinzugefügt.

FAQ

Alles, was wir zur Arena gefragt werden.

Was ist die Joute KI-Arena?

+
Ein Blindtest zwischen zwei KI-Modellen auf demselben Prompt. Du liest beide Antworten, ohne zu wissen, wer sie geschrieben hat, stimmst für die beste ab und dann enthüllen wir die Namen. Das ist das einzige Format, das wahrgenommene Qualität ohne Markenbias misst.

Woher kommen die Duelle und Votes?

+
Die Duelle stammen aus dem offenen Datensatz compar:IA, der KI-Arena des französischen Kulturministeriums, unter Open License 2.0. Das aktuelle Ranking aggregiert 139.935 echte Votes von französischsprachigen Nutzern. Deine Joute-Votes werden diesem Signal in Echtzeit hinzugefügt.

Wie wird das Ranking berechnet?

+
Zwei Signale werden kombiniert. Das compar:IA-Signal liefert das Basis-Ranking (Bradley-Terry auf den 139.935 Datensatz-Votes). Joute-Votes werden serverseitig aggregiert und passen dieses Ranking über einen bayesianischen Prior an: Je mehr Votes sich ansammeln, desto mehr wiegt das Joute-Signal gegenüber dem Ausgangsranking.

Sind meine Votes anonym?

+
Ja. Wir speichern nur einen Hash aus IP + User-Agent, um Spam zu begrenzen (1 Vote pro Duell pro Hash), kein Tracking-Cookie, keine persönlichen Daten. Kein Konto erforderlich, keine E-Mail-Abfrage.

Warum eine Arena statt eines klassischen Benchmarks?

+
Benchmarks (MMLU, GPQA usw.) messen, was Modelle auf Multiple-Choice-Tests antworten können. Die Arena misst, was du BEVORZUGST zu lesen, blind, auf echten Alltags-Prompts. Das ist komplementär und sagt am besten die Nutzungszufriedenheit nach 6 Monaten vorher.

Wie oft wird das Ranking aktualisiert?

+
Der compar:IA-Pool wird monatlich neu synchronisiert. Joute-Votes werden in Echtzeit aggregiert: Du kannst das Ranking nach deinem Vote aktualisieren und dein Signal ist bereits integriert.
Was kommt als Nächstes

Das Ranking entwickelt sich jede Woche, verpasse es nicht.

Wir senden eine monatliche Zusammenfassung: Wer steigt, wer fällt und die Modelle, die kollabieren, wenn man den Markenbias entfernt. Kein Spam, Ein-Klick-Abmeldung.