Clasament Cultură generală x Răspuns greșit

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe. Sortează după: Număr de eșecuri ↑.

Modele afișate

Eșecuri totale

133

Modelul cel mai afectat

Qwen3.7 Max 1

Motive de eșec

Răspuns greșit133 Eroare API13 Fără răspuns8

Categorii

Specific domeniului325 Trucuri anti-AI250 Programare201 Rezolvare de puzzle-uri154 Cultură generală133 Respectarea instrucțiunilor54 Combinat53 Inteligență generală36 Parsare și extragere de date35 Apelare instrumente2

133/133

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#3	Qwen3.7 Max medium	Qwen	1	3.0	$0.523	0/1	33.4s
Total teste 1 Teste greșite 1 Cost total $0.523 Timp de răspuns (mediu) 33.4s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
Total teste 1 Teste greșite 1 Cost total $0.907 Timp de răspuns (mediu) 10.1s
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
Total teste 1 Teste greșite 1 Cost total $3.679 Timp de răspuns (mediu) 37.9s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
Total teste 1 Teste greșite 1 Cost total $0.740 Timp de răspuns (mediu) 14.4s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
Total teste 1 Teste greșite 1 Cost total $0.960 Timp de răspuns (mediu) 60.6s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
Total teste 1 Teste greșite 1 Cost total $0.679 Timp de răspuns (mediu) 2.25s
#15	GLM 5 medium	Z.ai	1	3.0	$0.228	0/1	67.4s
Total teste 1 Teste greșite 1 Cost total $0.228 Timp de răspuns (mediu) 67.4s
#16	GPT-5 Mini medium	OpenAI	1	3.0	$0.159	0/1	9.99s
Total teste 1 Teste greșite 1 Cost total $0.159 Timp de răspuns (mediu) 9.99s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
Total teste 1 Teste greșite 1 Cost total $1.210 Timp de răspuns (mediu) 14.0s
#18	Seed-2.0-Lite medium	Bytedance Seed	1	3.0	$0.175	0/1	48.3s
Total teste 1 Teste greșite 1 Cost total $0.175 Timp de răspuns (mediu) 48.3s
#19	GPT-5.2 Chat none	OpenAI	1	3.0	$0.393	0/1	6.89s
Total teste 1 Teste greșite 1 Cost total $0.393 Timp de răspuns (mediu) 6.89s
#21	GLM 5 Turbo medium	Z.ai	1	3.0	$0.323	0/1	40.2s
Total teste 1 Teste greșite 1 Cost total $0.323 Timp de răspuns (mediu) 40.2s
#22	GPT-5.2 medium	OpenAI	1	3.0	$0.548	0/1	28.2s
Total teste 1 Teste greșite 1 Cost total $0.548 Timp de răspuns (mediu) 28.2s
#23	DeepSeek V4 Flash high	DeepSeek	1	3.0	$0.027	0/1	54.5s
Total teste 1 Teste greșite 1 Cost total $0.027 Timp de răspuns (mediu) 54.5s
#24	Gemini 2.5 Flash medium	Google	1	3.0	$0.379	0/1	2.76s
Total teste 1 Teste greșite 1 Cost total $0.379 Timp de răspuns (mediu) 2.76s

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Cultură generală: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat