AI BENCHY
Advertise here

Échecs AI BENCHY

Échecs N'a pas suivi les instructions

Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

13

Échecs totaux

215

Modèle le plus touché

Mistral Small 4 1
Rang Modèle Entreprise Nombre de N'a pas suivi les instructions Score Tests corrects Temps de réponse (moy.)
#53 Gemini 3.1 Flash Lite high Google 3 7.3 10/18 62.0s
#49 Qwen3.5-Flash medium Qwen 1 7.4 12/21 63.3s
#103 DeepSeek V4 Pro high DeepSeek 1 6.0 8/21 65.2s
#129 MiniMax M2.5 medium Minimax 3 5.3 5/21 65.4s
#12 Gemini 3.1 Flash Lite Preview high Google 1 8.6 13/16 68.1s
#67 MiniMax M3 medium Minimax 2 7.1 11/21 68.2s
#30 Qwen3.5-27B medium Qwen 2 7.8 13/21 68.4s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 11/21 68.7s
#60 Kimi K2.6 medium Moonshot AI 2 7.2 12/21 71.7s
#62 Step 3.5 Flash medium Stepfun 3 7.2 11/20 72.5s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.9 11/21 80.2s
#161 Qwen3.5-9B medium Qwen 1 4.2 3/21 82.2s
#76 Kimi K2.5 medium Moonshot AI 2 6.8 10/21 98.4s

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)