AI BENCHY
Advertise here

Échecs AI BENCHY

Échecs Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir.

Modèles affichés

15

Échecs totaux

1204

Modèle le plus touché

Mercury 2 16
Rang Modèle Entreprise Nombre de Mauvaise réponse Score Tests corrects Temps de réponse (moy.)
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#51 Mimo V2 PRO medium Xiaomi 5 7.4 12/21 22.2s
#54 GPT-5 Mini medium OpenAI 5 7.3 12/21 23.6s
#56 MiMo-V2.5 medium Xiaomi 5 7.3 12/21 27.1s
#64 MiMo-V2-Flash medium Xiaomi 5 7.2 12/21 20.1s
#72 DeepSeek V3.2 medium DeepSeek 5 7.0 11/21 68.7s
#76 Kimi K2.5 medium Moonshot AI 5 6.8 10/21 98.4s
#77 Claude Sonnet 4.6 none Anthropic 5 6.8 11/21 5.04s
#80 Mimo V2 Omni medium Xiaomi 5 6.7 10/21 41.2s
#96 Ring-2.6-1T none Inclusionai 5 6.2 9/21 55.1s
#105 Nemotron 3 Super medium NVIDIA 5 5.8 8/21 32.0s
#9 GPT-5.5 medium OpenAI 4 8.8 17/21 38.0s
#15 GPT-5.3-Codex medium OpenAI 4 8.4 15/21 16.2s
#23 GLM 5 Turbo medium Z.ai 4 8.0 14/21 23.0s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 4 7.9 14/21 73.8s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)