AI BENCHY
Advertise here

Eșecuri pe categorii AI BENCHY

Specific domeniului: Răspuns greșit

Specific domeniului
Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Specific domeniului, ca să găsești mai repede punctele slabe.

Modele afișate

15

Eșecuri totale

314

Modelul cel mai afectat

Qwen3.6 Max Preview 3
Rang Model Companie Număr de Răspuns greșit Scor de categorie Teste corecte Timp de răspuns (mediu)
#56 MiMo-V2.5 medium Xiaomi 1 5.3 1/3 34.5s
#65 Grok 4.20 medium X AI 1 5.3 1/3 27.0s
#66 Qwen3.5-35B-A3B medium Qwen 1 4.1 0/3 88.3s
#69 Claude Opus 4.6 medium Anthropic 1 3.0 0/3 83.4s
#74 Qwen3.6 Max Preview none Qwen 1 7.7 2/3 1.22s
#77 Claude Sonnet 4.6 none Anthropic 1 7.7 2/3 3.54s
#79 Hunter Alpha medium OpenRouter 1 3.0 0/3 10.5s
#80 Mimo V2 Omni medium Xiaomi 1 3.0 0/3 47.9s
#85 Gemma 4 31B none Google 1 7.7 2/3 3.22s
#86 Grok 4.1 Fast medium X AI 1 5.8 1/3 121.8s
#94 GPT-5 Nano medium OpenAI 1 5.2 1/3 204.0s
#103 DeepSeek V4 Pro high DeepSeek 1 2.9 0/3 205.7s
#108 Qwen3.5-Flash none Qwen 1 7.7 2/3 905ms
#117 Qwen3.5-35B-A3B none Qwen 1 7.7 2/3 485ms
#118 Qwen3.6 27B none Qwen 1 7.7 2/3 3.03s

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat