Clasament Cultură generală x Răspuns greșit

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

133

Modelul cel mai afectat

Qwen3.7 Max 1

Motive de eșec

Răspuns greșit133 Eroare API13 Fără răspuns8

Categorii

Specific domeniului325 Trucuri anti-AI250 Programare201 Rezolvare de puzzle-uri154 Cultură generală133 Respectarea instrucțiunilor54 Combinat53 Inteligență generală36 Parsare și extragere de date35 Apelare instrumente2

133/133

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#42	Grok Build 0.1 medium	X AI	1	3.0	$0.927	0/1	53.5s
Total teste 1 Teste greșite 1 Cost total $0.927 Timp de răspuns (mediu) 53.5s
#43	Kimi K2.5 medium	Moonshot AI	1	3.0	$0.348	0/1	83.9s
Total teste 1 Teste greșite 1 Cost total $0.348 Timp de răspuns (mediu) 83.9s
#44	Mercury 2 medium	Inception	1	3.0	$0.058	0/1	2.58s
Total teste 1 Teste greșite 1 Cost total $0.058 Timp de răspuns (mediu) 2.58s
#45	GPT-5.3 Chat none	OpenAI	1	3.0	$0.433	0/1	4.38s
Total teste 1 Teste greșite 1 Cost total $0.433 Timp de răspuns (mediu) 4.38s
#46	GPT-5.4 Nano medium	OpenAI	1	3.0	$0.107	0/1	4.81s
Total teste 1 Teste greșite 1 Cost total $0.107 Timp de răspuns (mediu) 4.81s
#47	Qwen3.6 Flash medium	Qwen	1	3.0	$0.288	0/1	122.9s
Total teste 1 Teste greșite 1 Cost total $0.288 Timp de răspuns (mediu) 122.9s
#48	DeepSeek V3.2 medium	DeepSeek	1	3.0	$0.044	0/1	84.0s
Total teste 1 Teste greșite 1 Cost total $0.044 Timp de răspuns (mediu) 84.0s
#49	Claude Opus 4.7 none	Anthropic	1	3.0	$0.505	0/1	1.46s
Total teste 1 Teste greșite 1 Cost total $0.505 Timp de răspuns (mediu) 1.46s
#50	Seed-2.0-Mini medium	Bytedance Seed	1	3.0	$0.044	0/1	56.8s
Total teste 1 Teste greșite 1 Cost total $0.044 Timp de răspuns (mediu) 56.8s
#51	MiMo-V2.5-Pro medium	Xiaomi	1	3.0	$0.106	0/1	12.5s
Total teste 1 Teste greșite 1 Cost total $0.106 Timp de răspuns (mediu) 12.5s
#53	Grok 4.20 medium	X AI	1	3.0	$0.609	0/1	63.5s
Total teste 1 Teste greșite 1 Cost total $0.609 Timp de răspuns (mediu) 63.5s
#54	Hy3 preview medium	Tencent	1	3.0	$0.021	0/1	39.9s
Total teste 1 Teste greșite 1 Cost total $0.021 Timp de răspuns (mediu) 39.9s
#55	Claude Sonnet 4.6 none	Anthropic	1	3.0	$0.316	0/1	4.67s
Total teste 1 Teste greșite 1 Cost total $0.316 Timp de răspuns (mediu) 4.67s
#56	GLM 5V Turbo medium	Z.ai	1	3.0	$0.457	0/1	41.0s
Total teste 1 Teste greșite 1 Cost total $0.457 Timp de răspuns (mediu) 41.0s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.0	$0.034	0/1	5.76s
Total teste 1 Teste greșite 1 Cost total $0.034 Timp de răspuns (mediu) 5.76s

←

1 2 3 4 9

→

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Cultură generală: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat