AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Échecs par catégorie AI BENCHY

Suivi des instructions : N'a pas suivi les instructions

Suivi des instructions
N'a pas suivi les instructions

Voyez quels modèles d'IA ont le plus de chances de rencontrer N'a pas suivi les instructions sur Suivi des instructions, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

11

Échecs totaux

11

Modèle le plus touché

Granite 4.1 8B 1
Rang Modèle Entreprise Nombre de N'a pas suivi les instructions Score de catégorie Tests corrects Temps de réponse (moy.)
#163 Granite 4.1 8B none IBM Granite 1 3.6 0/2 344ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 4.8 0/2 541ms
#129 MiniMax M2.5 medium Minimax 1 7.5 1/2 621ms
#157 Grok 4.1 Fast none X AI 1 3.0 0/2 685ms
#151 Trinity Large Preview none Arcee AI 1 3.5 0/2 822ms
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 7.3 1/2 1.37s
#86 Grok 4.1 Fast medium X AI 1 6.5 1/2 4.63s
#62 Step 3.5 Flash medium Stepfun 1 8.3 1/2 4.78s
#80 Mimo V2 Omni medium Xiaomi 1 8.3 1/2 4.99s
#105 Nemotron 3 Super medium NVIDIA 1 7.3 1/2 6.97s
#130 MiniMax M2.7 medium Minimax 1 3.8 0/2 12.8s

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé