Clasament Cultură generală x Răspuns greșit

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

133

Modelul cel mai afectat

Qwen3.7 Max 1

Motive de eșec

Răspuns greșit133 Eroare API13 Fără răspuns8

Categorii

Specific domeniului325 Trucuri anti-AI250 Programare201 Rezolvare de puzzle-uri154 Cultură generală133 Respectarea instrucțiunilor54 Combinat53 Inteligență generală36 Parsare și extragere de date35 Apelare instrumente2

133/133

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#76	MiMo-V2.5 medium	Xiaomi	1	3.0	$0.063	0/1	51.3s
Total teste 1 Teste greșite 1 Cost total $0.063 Timp de răspuns (mediu) 51.3s
#77	Mimo V2 PRO medium	Xiaomi	1	3.0	$0.333	0/1	82.7s
Total teste 1 Teste greșite 1 Cost total $0.333 Timp de răspuns (mediu) 82.7s
#78	gpt-oss-120b medium	OpenAI	1	3.0	$0.013	0/1	26.5s
Total teste 1 Teste greșite 1 Cost total $0.013 Timp de răspuns (mediu) 26.5s
#79	GPT-5 Nano medium	OpenAI	1	3.0	$0.081	0/1	20.1s
Total teste 1 Teste greșite 1 Cost total $0.081 Timp de răspuns (mediu) 20.1s
#80	Step 3.5 Flash medium	Stepfun	1	3.0	$0.070	0/1	108.4s
Total teste 1 Teste greșite 1 Cost total $0.070 Timp de răspuns (mediu) 108.4s
#81	Qwen3.6 27B medium	Qwen	1	3.0	$0.440	0/1	81.0s
Total teste 1 Teste greșite 1 Cost total $0.440 Timp de răspuns (mediu) 81.0s
#82	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.026	0/1	1.35s
Total teste 1 Teste greșite 1 Cost total $0.026 Timp de răspuns (mediu) 1.35s
#84	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.018	0/1	814ms
Total teste 1 Teste greșite 1 Cost total $0.018 Timp de răspuns (mediu) 814ms
#85	Gemini 3.1 Flash Lite low	Google	1	3.0	$0.028	0/1	1.46s
Total teste 1 Teste greșite 1 Cost total $0.028 Timp de răspuns (mediu) 1.46s
#86	Hy3 preview low	Tencent	1	3.0	$0.018	0/1	41.7s
Total teste 1 Teste greșite 1 Cost total $0.018 Timp de răspuns (mediu) 41.7s
#87	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.021	0/1	55.3s
Total teste 1 Teste greșite 1 Cost total $0.021 Timp de răspuns (mediu) 55.3s
#88	Gemma 4 31B medium	Google	1	3.0	$0.033	0/1	90.1s
Total teste 1 Teste greșite 1 Cost total $0.033 Timp de răspuns (mediu) 90.1s
#89	Qwen3.5-35B-A3B medium	Qwen	1	3.0	$0.401	0/1	177.4s
Total teste 1 Teste greșite 1 Cost total $0.401 Timp de răspuns (mediu) 177.4s
#90	GPT-5.5 none	OpenAI	1	3.0	$0.231	0/1	5.01s
Total teste 1 Teste greșite 1 Cost total $0.231 Timp de răspuns (mediu) 5.01s
#92	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.019	0/1	1.96s
Total teste 1 Teste greșite 1 Cost total $0.019 Timp de răspuns (mediu) 1.96s

←

1 4 5 6 9

→

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Cultură generală: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat