AI BENCHY
Advertise here

Échecs AI BENCHY

Échecs N'a pas suivi les instructions

Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Tests corrects ↑.

Modèles affichés

15

Échecs totaux

215

Modèle le plus touché

Granite 4.1 8B 4
Rang Modèle Entreprise Nombre de N'a pas suivi les instructions Score Tests corrects Temps de réponse (moy.)
#99 gpt-oss-120b medium OpenAI 3 6.1 9/21 22.3s
#79 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 6.6 8/18 9.69s
#86 Grok 4.1 Fast medium X AI 4 6.5 9/19 23.8s
#92 Laguna M.1 medium Poolside 1 6.4 9/19 14.7s
#76 Kimi K2.5 medium Moonshot AI 2 6.8 10/21 98.4s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#80 Mimo V2 Omni medium Xiaomi 2 6.7 10/21 41.2s
#81 Mercury 2 medium Inception 3 6.6 10/21 2.24s
#85 Gemma 4 31B none Google 1 6.5 10/21 4.05s
#87 Gemini 3.1 Flash Lite minimal Google 3 6.4 10/21 1.33s
#88 Qwen3.7 Plus none Qwen 1 6.4 10/21 2.85s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#59 GLM 5V Turbo medium Z.ai 1 7.2 11/21 23.1s
#67 MiniMax M3 medium Minimax 2 7.1 11/21 68.2s

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)