AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Échecs par catégorie AI BENCHY

Appel d'outils : N'a pas suivi les instructions

Appel d'outils
N'a pas suivi les instructions

Voyez quels modèles d'IA ont le plus de chances de rencontrer N'a pas suivi les instructions sur Appel d'outils, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↓.

Modèles affichés

6

Échecs totaux

6

Modèle le plus touché

Nemotron 3 Super 1
Rang Modèle Entreprise Nombre de N'a pas suivi les instructions Score de catégorie Tests corrects Temps de réponse (moy.)
#88 Nemotron 3 Super none NVIDIA 1 4.7 0/1 16.0s
#47 Grok 4.20 medium X AI 1 3.0 0/1 13.7s
#25 Grok 4.20 Beta medium X AI 1 3.0 0/1 12.4s
#80 MiniMax M2.7 medium Minimax 1 4.7 0/1 12.0s
#44 GPT-5.4 Mini medium OpenAI 1 4.7 0/1 9.62s
#86 GPT-5.4 Mini none OpenAI 1 3.0 0/1 2.32s

Meilleurs modèles par Nombre de N'a pas suivi les instructions

Nombre de N'a pas suivi les instructions vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé