AI BENCHY
Advertise here

Eșecuri pe categorii AI BENCHY

Cultură generală: Răspuns greșit

Cultură generală
Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe.

Modele afișate

15

Eșecuri totale

117

Modelul cel mai afectat

Claude Opus 4.7 1

Motive de eșec

Rang Model Companie Număr de Răspuns greșit Scor de categorie Teste corecte Timp de răspuns (mediu)
#24 Grok 4.3 medium X AI 1 3.0 0/1 44.5s
#25 Gemini 2.5 Flash medium Google 1 3.0 0/1 2.76s
#26 GPT-5.4 medium OpenAI 1 3.0 0/1 14.0s
#27 Gemini 3.1 Flash Lite medium Google 1 3.0 0/1 3.08s
#28 Qwen3.6 Plus medium Qwen 1 3.0 0/1 47.5s
#29 Gemini 3 Flash Preview none Google 1 3.0 0/1 1.07s
#30 Gemini 3.1 Flash Lite Preview low Google 1 3.0 0/1 1.35s
#31 Qwen3.5-122B-A10B medium Qwen 1 3.0 0/1 52.9s
#33 Qwen3.5 Plus 2026-04-20 medium Qwen 1 3.0 0/1 92.6s
#34 HY3 Preview medium Tencent 1 3.0 0/1 39.9s
#35 Claude Sonnet 4.6 medium Anthropic 1 3.0 0/1 30.1s
#36 Step 3.5 Flash none Stepfun 1 3.0 0/1 114.1s
#37 MiMo-V2-Pro medium Xiaomi 1 3.0 0/1 82.7s
#38 Gemma 4 26B A4B medium Google 1 3.0 0/1 180.9s
#39 HY3 Preview low Tencent 1 3.0 0/1 41.7s

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat