AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Eșecuri pe categorii AI BENCHY

Specific domeniului: Răspuns greșit

Specific domeniului
Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Specific domeniului, ca să găsești mai repede punctele slabe.

Modele afișate

15

Eșecuri totale

182

Modelul cel mai afectat

Qwen3.6 Plus Preview 3
Rang Model Companie Număr de Răspuns greșit Scor de categorie Teste corecte Timp de răspuns (mediu)
#81 Elephant medium Openrouter 3 3.0 0/3 925ms
#84 gpt-oss-120b none OpenAI 3 3.0 0/3 35.0s
#85 Elephant none Openrouter 3 3.0 0/3 927ms
#86 GPT-5.4 Mini none OpenAI 3 3.5 0/3 937ms
#88 Nemotron 3 Super none NVIDIA 3 3.6 0/3 6.23s
#89 GPT-4o-mini none OpenAI 3 3.0 0/3 637ms
#90 Qwen3.5-9B none Qwen 3 3.0 0/3 464ms
#96 GPT-5.4 Nano none OpenAI 3 2.9 0/3 926ms
#5 Gemini 3 Flash Preview low Google 2 5.3 1/3 8.05s
#6 Seed-2.0-Lite medium Bytedance Seed 2 5.9 1/3 88.7s
#7 GPT-5.3-Codex medium OpenAI 2 5.9 1/3 64.3s
#11 Gemini 3.1 Flash Lite Preview high Google 2 5.3 1/3 127.6s
#12 Gemini 3 PRO Preview medium Google 2 5.3 1/3 7.01s
#13 GLM 5 medium Z.ai 2 3.5 0/3 0ms
#15 Gemini 2.5 Flash medium Google 2 5.9 1/3 37.3s

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat