AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs N'a pas suivi les instructions

Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Score ↑.

Modèles affichés

15

Échecs totaux

180

Modèle le plus touché

LFM2-24B-A2B 2
Rang Modèle Entreprise Nombre de N'a pas suivi les instructions Score Tests corrects Temps de réponse (moy.)
#48 Gemma 4 31B none Google 1 6.9 10/18 4.02s
#47 Grok 4.20 medium X AI 4 7.0 9/18 10.3s
#46 Kimi K2.5 medium Moonshot AI 2 7.0 9/18 72.4s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#44 GPT-5.4 Mini medium OpenAI 5 7.3 9/18 15.2s
#42 Claude Sonnet 4.6 none Anthropic 1 7.4 11/18 4.98s
#41 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#40 GPT-5.2 medium OpenAI 3 7.5 11/18 14.0s
#39 Seed-2.0-Mini medium Bytedance Seed 1 7.5 11/18 69.7s
#38 GPT-5.4 Nano medium OpenAI 3 7.6 11/18 11.2s
#36 GPT-5.3 Chat none OpenAI 2 7.7 11/18 5.88s
#35 MiMo-V2-Omni medium Xiaomi 2 7.7 11/18 16.8s
#34 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#31 GLM 5V Turbo medium Z.ai 2 7.8 11/18 15.0s

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)