AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Eșecuri AI BENCHY

Eșecuri Nu a urmat instrucțiunile

Vezi ce modele AI se lovesc cel mai des de Nu a urmat instrucțiunile, ca să identifici riscurile de fiabilitate înainte să alegi.

Modele afișate

10

Eșecuri totale

225

Modelul cel mai afectat

MiniMax M2.7 5
Rang Model Companie Număr de Nu a urmat instrucțiunile Scor Teste corecte Timp de răspuns (mediu)
#117 Grok 4.20 Beta none X AI 1 5.5 5/18 1.19s
#118 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 5.4 10/19 17.1s
#127 Laguna Xs.2 none Poolside 1 5.3 9/19 806ms
#131 DeepSeek V4 Flash none DeepSeek 1 5.1 5/20 27.9s
#132 Qwen3 Coder Next none Qwen 1 5.1 5/20 8.83s
#135 Mistral Small 4 none Mistral 1 5.0 5/20 658ms
#138 GPT-4o-mini none OpenAI 1 4.9 5/20 1.87s
#143 Mercury 2 none Inception 1 4.6 4/20 614ms
#145 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 4.6 8/19 726ms
#151 Qwen3.5-9B medium Qwen 1 4.2 3/20 80.1s

Top modele după Număr de Nu a urmat instrucțiunile

Număr de Nu a urmat instrucțiunile vs Scor

Top modele după Timp de răspuns (mediu)