AI BENCHY
Compară Grafice Metodologie
❤️ Made by XCS
Your ad here

Eșecuri pe categorii AI BENCHY

Specific domeniului
Timp expirat

Vezi ce modele AI au cele mai mari șanse să întâmpine Timp expirat la Specific domeniului, ca să găsești mai repede punctele slabe. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

14

Eșecuri totale

17

Modelul cel mai afectat

Claude Sonnet 4.6 1
Rang Model Companie Număr de Timp expirat Scor de categorie Teste corecte Timp de răspuns (mediu)
#11 Claude Sonnet 4.6 medium Anthropic 1 10.0 0/3 0ms
#14 GLM 5 medium Z.ai 1 10.0 0/3 0ms
#23 Seed-2.0-Mini medium Bytedance Seed 3 10.0 0/3 0ms
#4 Qwen3.5 Plus 2026-02-15 medium Qwen 1 4.0 1/3 17.5s
#18 DeepSeek V3.2 medium DeepSeek 1 4.0 1/3 39.3s
#32 GPT-5 Mini medium OpenAI 1 10.0 0/3 44.6s
#27 GPT-5.2 medium OpenAI 1 4.0 1/3 77.8s
#7 Qwen3.5-27B medium Qwen 1 4.0 1/3 79.5s
#35 Qwen3.5-35B-A3B medium Qwen 2 10.0 0/3 88.3s
#30 Grok 4.1 Fast medium X AI 1 4.0 1/3 121.8s
#28 Kimi K2.5 medium Moonshot AI 1 10.0 0/3 137.3s
#24 Qwen3.5-Flash medium Qwen 1 4.0 1/3 146.5s
#34 GPT-5 Nano medium OpenAI 1 4.0 1/3 204.0s
#43 MiniMax M2.5 medium Minimax 1 10.0 0/3 237.3s

Top modele după Număr de Timp expirat

Număr de Timp expirat vs scor mediu

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat