AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs N'a pas suivi les instructions

Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Nombre d'échecs ↑.

Modèles affichés

15

Échecs totaux

180

Modèle le plus touché

Qwen3.6 Plus Preview 1
Rang Modèle Entreprise Nombre de N'a pas suivi les instructions Score Tests corrects Temps de réponse (moy.)
#78 Trinity Large Preview none Arcee AI 2 5.3 5/18 5.07s
#82 Grok 4.20 none X AI 2 5.2 5/18 1.11s
#83 Mistral Small 4 none Mistral 2 5.2 5/18 665ms
#93 GLM 4.7 Flash medium Z.ai 2 4.6 4/18 32.3s
#95 Grok 4.1 Fast none X AI 2 4.5 3/18 1.76s
#97 Qwen3.5-9B medium Qwen 2 4.4 3/18 73.6s
#98 LFM2-24B-A2B none Liquid 2 4.1 1/16 811ms
#25 Grok 4.20 Beta medium X AI 3 8.0 12/18 9.81s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#34 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#38 GPT-5.4 Nano medium OpenAI 3 7.6 11/18 11.2s
#40 GPT-5.2 medium OpenAI 3 7.5 11/18 14.0s
#57 GPT-5 Nano medium OpenAI 3 6.3 7/18 44.1s
#60 Gemma 4 26B A4B none Google 3 6.2 7/18 6.59s
#69 Kimi K2.6 none Moonshot AI 3 5.8 7/18 2.05s

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)