AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs Mauvaise réponse

Voyez quels modèles d'IA rencontrent le plus souvent Mauvaise réponse, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↓.

Modèles affichés

15

Échecs totaux

572

Modèle le plus touché

Qwen3.5-9B 1
Rang Modèle Entreprise Nombre de Mauvaise réponse Score Tests corrects Temps de réponse (moy.)
#6 Seed-2.0-Lite medium Bytedance Seed 3 8.6 13/18 30.4s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#24 Gemma 4 26B A4B medium Google 2 8.0 13/18 25.0s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#33 GLM 5.1 medium Z.ai 3 7.8 12/18 24.1s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#52 Grok 4.1 Fast medium X AI 3 6.7 9/18 23.9s
#41 MiMo-V2-Flash medium Xiaomi 3 7.5 11/18 23.4s
#13 GLM 5 medium Z.ai 2 8.4 13/18 23.3s
#37 Claude Opus 4.6 medium Anthropic 2 7.6 12/18 21.1s
#51 Nemotron 3 Super medium NVIDIA 3 6.7 9/18 19.1s
#16 GPT-5.4 medium OpenAI 3 8.2 13/18 18.6s
#18 GLM 5 Turbo medium Z.ai 3 8.1 12/18 17.7s
#35 MiMo-V2-Omni medium Xiaomi 3 7.7 11/18 16.8s
#68 gpt-oss-120b medium OpenAI 7 5.8 7/18 16.1s

Meilleurs modèles par Nombre de Mauvaise réponse

Nombre de Mauvaise réponse vs Score

Meilleurs modèles par Temps de réponse (moy.)