Joute
Modo Joute

La Arena

Dos IAs se enfrentan en el mismo prompt. Tú juzgas a ciegas, sin conocer las marcas. El ranking es el agregado de 139.935 votos reales del dataset abierto compar:IA, enriquecido en tiempo real por los votos de los visitantes de Joute.

vs
139.935
votos reales agregados
295
duelos jugables
100%
voto a ciegas

La arena de IA, sin sesgo de marca.

Cuando eliges tu modelo de IA, la marca influye. ChatGPT, Claude, Gemini: los nombres pesan. La arena rompe ese sesgo. Lees dos respuestas al mismo prompt, sin saber quién las escribió. Votas por la mejor. Luego revelamos.

El formato no lo inventó Joute. Es el método de compar:IA del Ministerio de Cultura francés: desde 2024 han recogido 139.935 votos reales sobre cientos de modelos en francés, bajo Licencia Abierta 2.0. Joute agrega la totalidad en su ranking, y te permite rejugar una muestra de 295 duelos para formarte tu propia opinión.

Tus votos de Joute cuentan. Se agregan en el servidor en tiempo real y enriquecen el ranking base. Cuanto más crece la comunidad Joute, más refleja el ranking el uso real, no solo el dataset gubernamental de referencia.

Duels 100% réels issus de compar:IA, l'arène d'IA du Ministère de la Culture. Joute ne simule rien.
ExplicationDuel n°1
Le défi

Quel est le calibre du pistolet ptb 276 ?

ACombattant A

Le pistolet PTB 276 est un pistolet d'alarme (ou pistolet à blanc). Il tire donc des cartouches à blanc et n'est pas conçu pour tirer des balles réelles. Le calibre des cartouches à blanc utilisées par le PTB 276 est généralement du 9mm PAK (Pistole Automatik Knall). Il est important de noter que même s'il s'agit d'un pistolet d'alarme, il peut être dangereux et doit être manipulé avec précaution.

BCombattant B

Le pistolet PTB 276 est généralement chambered en calibre 9 mm. Cependant, il est important de vérifier les spécifications exactes du modèle que vous consultez, car il peut y avoir des variations. Si vous avez besoin d'informations plus précises ou de détails supplémentaires, n'hésitez pas à demander !

Rends ton verdict
Le classement

Le classement de l'arène

139 935 votes

Classement bâti sur les 139 935votes réels à l'aveugle du dataset ouvert compar:IA (Ministère de la Culture). Chaque marque agrège tous ses modèles testés, du plus petit au plus grand. Aucune note éditoriale n'entre en compte.

Le pourcentage est un taux de victoire : la part de duels remportés sur l'ensemble des duels disputés par la marque dans le dataset compar:IA. Le nombre de duels varie d'une marque à l'autre.

Cómo funciona

Tres pasos, un minuto por duelo.

1

Lees las dos respuestas

Mismo prompt, dos IAs, identidades ocultas. Ves A y B, no sus nombres. Sin logo, sin color de marca. Solo el texto.

2

Votas por la mejor

A gana, B gana, empate o ambas débiles. Sin registro requerido, solo un clic. El voto es anónimo (hash IP+UA, sin cookie).

3

Revelamos y agregamos

Aparecen los nombres: ves si tu intuición coincide. Tu voto se añade al ranking de Joute en tiempo real.

Preguntas frecuentes

Todo lo que nos preguntan sobre la arena.

¿Qué es la Arena de IA de Joute?

+
Un test ciego entre dos modelos de IA sobre el mismo prompt. Lees las dos respuestas sin saber quién las escribió, votas por la mejor y luego revelamos los nombres. Es el único formato que mide la calidad percibida sin sesgo de marca.

¿De dónde vienen los duelos y los votos?

+
Los duelos se obtienen del dataset abierto compar:IA, la arena de IA del Ministerio de Cultura francés, bajo Licencia Abierta 2.0. El ranking actual agrega 139.935 votos reales emitidos por usuarios francófonos. Tus votos de Joute se añaden a esta señal en tiempo real.

¿Cómo se calcula el ranking?

+
Se combinan dos señales. La señal compar:IA da el ranking base (Bradley-Terry sobre los 139.935 votos del dataset). Los votos de Joute se agregan en el servidor y ajustan este ranking mediante un prior bayesiano: cuantos más votos se acumulan, más peso tiene la señal Joute frente al ranking inicial.

¿Son anónimos mis votos?

+
Sí. Solo almacenamos un hash de la IP + user-agent para limitar el spam (1 voto por duelo por hash), sin cookie de seguimiento, sin datos personales. No se requiere cuenta, no se pide email.

¿Por qué una arena en lugar de un benchmark clásico?

+
Los benchmarks (MMLU, GPQA, etc.) miden lo que los modelos saben responder en tests de opción múltiple. La arena mide lo que PREFIERES leer, a ciegas, en prompts reales del día a día. Es complementario, y es lo que mejor predice la satisfacción de uso a 6 meses.

¿Con qué frecuencia se actualiza el ranking?

+
El pool de compar:IA se resincroniza mensualmente. Los votos de Joute se agregan en tiempo real: puedes actualizar el ranking después de tu voto y tu señal ya está integrada.
Lo siguiente

El ranking evoluciona cada semana, no te lo pierdas.

Enviamos un resumen mensual: quién sube, quién baja y los modelos que se desmoronan cuando se elimina el sesgo de marca. Sin spam, baja en un clic.