AI BENCHY
Compară Grafice Metodologie
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Eșecuri pe categorii AI BENCHY

Respectarea instrucțiunilor
Nu a urmat instrucțiunile

Vezi ce modele AI au cele mai mari șanse să întâmpine Nu a urmat instrucțiunile la Respectarea instrucțiunilor, ca să găsești mai repede punctele slabe. Sortează după: Teste corecte ↓.

Modele afișate

9

Eșecuri totale

9

Modelul cel mai afectat

Gemini 3.1 Flash Lite Preview 1
Rang Model Companie Număr de Nu a urmat instrucțiunile Scor de categorie Teste corecte Timp de răspuns (mediu)
#8 Gemini 3.1 Flash Lite Preview high Google 1 9.0 1/2 70.1s
#13 Step 3.5 Flash medium Stepfun 1 9.0 1/2 4.98s
#30 Grok 4.1 Fast medium X AI 1 5.5 1/2 5.30s
#32 GPT-5 Mini medium OpenAI 1 7.5 1/2 15.7s
#34 GPT-5 Nano medium OpenAI 1 9.0 1/2 11.9s
#43 MiniMax M2.5 medium Minimax 1 8.0 1/2 4.64s
#45 Trinity Large Preview none Arcee AI 1 3.5 0/2 1.09s
#47 GPT-4o-mini none OpenAI 1 4.5 0/2 1.27s
#50 Qwen3 Coder Next medium Qwen 1 4.5 0/2 7.34s

Top modele după Număr de Nu a urmat instrucțiunile

Număr de Nu a urmat instrucțiunile vs scor mediu

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat