AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

15

Échecs totaux

572

Modèle le plus touché

Mercury 2 13
Rang Modèle Entreprise Nombre de Mauvaise réponse Score Tests corrects Temps de réponse (moy.)
#52 Grok 4.1 Fast medium X AI 3 6.7 9/18 23.9s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#33 GLM 5.1 medium Z.ai 3 7.8 12/18 24.1s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#24 Gemma 4 26B A4B medium Google 2 8.0 13/18 25.0s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#6 Seed-2.0-Lite medium Bytedance Seed 3 8.6 13/18 30.4s
#80 MiniMax M2.7 medium Minimax 5 5.3 4/18 31.1s
#19 Qwen3.5-122B-A10B medium Qwen 3 8.1 13/18 31.4s
#93 GLM 4.7 Flash medium Z.ai 8 4.6 4/18 32.3s
#71 MiniMax M2.5 medium Minimax 5 5.7 5/18 39.6s
#57 GPT-5 Nano medium OpenAI 7 6.3 7/18 44.1s
#43 Qwen3.5-35B-A3B medium Qwen 2 7.4 10/18 44.5s
#34 Kimi K2.6 medium Moonshot AI 2 7.7 11/18 45.2s
#27 DeepSeek V3.2 medium DeepSeek 3 8.0 12/18 46.4s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)