AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs N'a pas suivi les instructions

Voyez quels modèles d'IA rencontrent le plus souvent N'a pas suivi les instructions, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

5

Échecs totaux

180

Modèle le plus touché

Mercury 2 1
Rang Modèle Entreprise Nombre de N'a pas suivi les instructions Score Tests corrects Temps de réponse (moy.)
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#11 Gemini 3.1 Flash Lite Preview high Google 1 8.4 12/16 68.8s
#39 Seed-2.0-Mini medium Bytedance Seed 1 7.5 11/18 69.7s
#46 Kimi K2.5 medium Moonshot AI 2 7.0 9/18 72.4s
#97 Qwen3.5-9B medium Qwen 2 4.4 3/18 73.6s

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)