AI BENCHY
Advertise here

Échecs AI BENCHY

Échecs N'a pas suivi les instructions

Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↓.

Modèles affichés

15

Échecs totaux

215

Modèle le plus touché

Kimi K2.5 2
Rang Modèle Entreprise Nombre de N'a pas suivi les instructions Score Tests corrects Temps de réponse (moy.)
#56 MiMo-V2.5 medium Xiaomi 1 7.3 12/21 27.1s
#139 DeepSeek V4 Flash none DeepSeek 1 5.0 5/21 26.8s
#43 MiMo-V2.5-Pro medium Xiaomi 2 7.5 12/21 26.1s
#69 Claude Opus 4.6 medium Anthropic 1 7.0 12/21 25.9s
#86 Grok 4.1 Fast medium X AI 4 6.5 9/19 23.8s
#54 GPT-5 Mini medium OpenAI 3 7.3 12/21 23.6s
#59 GLM 5V Turbo medium Z.ai 1 7.2 11/21 23.1s
#23 GLM 5 Turbo medium Z.ai 1 8.0 14/21 23.0s
#21 GPT-5.4 medium OpenAI 2 8.0 14/21 22.3s
#45 GPT-5.4 Mini medium OpenAI 3 7.5 12/21 22.3s
#99 gpt-oss-120b medium OpenAI 3 6.1 9/21 22.3s
#51 Mimo V2 PRO medium Xiaomi 1 7.4 12/21 22.2s
#126 gpt-oss-120b none OpenAI 2 5.4 6/19 21.6s
#22 Step 3.7 Flash medium Stepfun 1 8.0 14/21 20.4s
#64 MiMo-V2-Flash medium Xiaomi 1 7.2 12/21 20.1s

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)