AI BENCHY
Advertise here

Échecs AI BENCHY

Échecs N'a pas suivi les instructions

Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Score ↓.

Modèles affichés

15

Échecs totaux

215

Modèle le plus touché

Gemini 3.5 Flash 1
Rang Modèle Entreprise Nombre de N'a pas suivi les instructions Score Tests corrects Temps de réponse (moy.)
#58 Gemini 3.1 Flash Lite Preview none Google 2 7.2 12/21 1.21s
#59 GLM 5V Turbo medium Z.ai 1 7.2 11/21 23.1s
#60 Kimi K2.6 medium Moonshot AI 2 7.2 12/21 71.7s
#62 Step 3.5 Flash medium Stepfun 3 7.2 11/20 72.5s
#63 GPT-5.3 Chat none OpenAI 2 7.2 12/21 6.34s
#64 MiMo-V2-Flash medium Xiaomi 1 7.2 12/21 20.1s
#65 Grok 4.20 medium X AI 2 7.1 12/21 27.7s
#67 MiniMax M3 medium Minimax 2 7.1 11/21 68.2s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 1 7.0 12/21 25.9s
#70 GPT-5.4 Nano medium OpenAI 2 7.0 11/21 12.0s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 11/21 68.7s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.9 11/21 80.2s
#75 Ring-2.6-1T medium Inclusionai 2 6.9 11/21 61.3s
#76 Kimi K2.5 medium Moonshot AI 2 6.8 10/21 98.4s

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)