Clasament Cultură generală x Răspuns greșit

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

133

Modelul cel mai afectat

Qwen3.7 Max 1

Motive de eșec

Răspuns greșit133 Eroare API13 Fără răspuns8

Categorii

Specific domeniului325 Trucuri anti-AI250 Programare201 Rezolvare de puzzle-uri154 Cultură generală133 Respectarea instrucțiunilor54 Combinat53 Inteligență generală36 Parsare și extragere de date35 Apelare instrumente2

133/133

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#25	Qwen3.7 Plus medium	Qwen	1	3.0	$0.177	0/1	91.1s
Total teste 1 Teste greșite 1 Cost total $0.177 Timp de răspuns (mediu) 91.1s
#26	Nemotron 3 Ultra 550b A55b medium	NVIDIA	1	3.0	$0.158	0/1	38.5s
Total teste 1 Teste greșite 1 Cost total $0.158 Timp de răspuns (mediu) 38.5s
#27	GPT-5.4 Mini medium	OpenAI	1	3.0	$0.526	0/1	30.1s
Total teste 1 Teste greșite 1 Cost total $0.526 Timp de răspuns (mediu) 30.1s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	3.0	$0.310	0/1	103.8s
Total teste 1 Teste greșite 1 Cost total $0.310 Timp de răspuns (mediu) 103.8s
#29	Qwen3.5-27B medium	Qwen	1	3.0	$0.536	0/1	85.1s
Total teste 1 Teste greșite 1 Cost total $0.536 Timp de răspuns (mediu) 85.1s
#30	Qwen3.6 Plus medium	Qwen	1	3.0	$0.294	0/1	47.5s
Total teste 1 Teste greșite 1 Cost total $0.294 Timp de răspuns (mediu) 47.5s
#31	Claude Sonnet 4.6 medium	Anthropic	1	3.0	$1.418	0/1	30.1s
Total teste 1 Teste greșite 1 Cost total $1.418 Timp de răspuns (mediu) 30.1s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	3.0	$0.068	0/1	2.68s
Total teste 1 Teste greșite 1 Cost total $0.068 Timp de răspuns (mediu) 2.68s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	3.0	$0.317	0/1	92.6s
Total teste 1 Teste greșite 1 Cost total $0.317 Timp de răspuns (mediu) 92.6s
#34	Gemini 3.1 Flash Lite medium	Google	1	3.0	$0.071	0/1	3.08s
Total teste 1 Teste greșite 1 Cost total $0.071 Timp de răspuns (mediu) 3.08s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
Total teste 1 Teste greșite 1 Cost total $0.889 Timp de răspuns (mediu) 130.3s
#36	Qwen3.5-122B-A10B medium	Qwen	1	3.0	$0.588	0/1	52.9s
Total teste 1 Teste greșite 1 Cost total $0.588 Timp de răspuns (mediu) 52.9s
#37	Grok 4.3 medium	X AI	1	3.0	$0.614	0/1	44.5s
Total teste 1 Teste greșite 1 Cost total $0.614 Timp de răspuns (mediu) 44.5s
#38	Claude Opus 4.6 medium	Anthropic	1	3.0	$2.053	0/1	63.2s
Total teste 1 Teste greșite 1 Cost total $2.053 Timp de răspuns (mediu) 63.2s
#41	DeepSeek V4 Pro high	DeepSeek	1	3.0	$0.157	0/1	34.0s
Total teste 1 Teste greșite 1 Cost total $0.157 Timp de răspuns (mediu) 34.0s

←

1 2 3 9

→

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Cultură generală: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat