AI BENCHY
Advertise here

Échecs AI BENCHY

Échecs N'a pas suivi les instructions

Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Score ↑.

Modèles affichés

15

Échecs totaux

215

Modèle le plus touché

Granite 4.1 8B 4
Rang Modèle Entreprise Nombre de N'a pas suivi les instructions Score Tests corrects Temps de réponse (moy.)
#92 Laguna M.1 medium Poolside 1 6.4 9/19 14.7s
#90 Gemini 3.1 Flash Lite none Google 1 6.4 9/21 1.06s
#88 Qwen3.7 Plus none Qwen 1 6.4 10/21 2.85s
#87 Gemini 3.1 Flash Lite minimal Google 3 6.4 10/21 1.33s
#86 Grok 4.1 Fast medium X AI 4 6.5 9/19 23.8s
#85 Gemma 4 31B none Google 1 6.5 10/21 4.05s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 6.6 8/18 9.69s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#81 Mercury 2 medium Inception 3 6.6 10/21 2.24s
#80 Mimo V2 Omni medium Xiaomi 2 6.7 10/21 41.2s
#79 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#77 Claude Sonnet 4.6 none Anthropic 1 6.8 11/21 5.04s
#76 Kimi K2.5 medium Moonshot AI 2 6.8 10/21 98.4s
#75 Ring-2.6-1T medium Inclusionai 2 6.9 11/21 61.3s

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)