Clasament Cultură generală x Răspuns greșit

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Cultură generală, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

133

Modelul cel mai afectat

Qwen3.7 Max 1

Motive de eșec

Răspuns greșit133 Eroare API13 Fără răspuns8

Categorii

Specific domeniului325 Trucuri anti-AI250 Programare201 Rezolvare de puzzle-uri154 Cultură generală133 Respectarea instrucțiunilor54 Combinat53 Inteligență generală36 Parsare și extragere de date35 Apelare instrumente2

133/133

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#59	Gemma 4 26B A4B medium	Google	1	3.0	$0.045	0/1	180.9s
Total teste 1 Teste greșite 1 Cost total $0.045 Timp de răspuns (mediu) 180.9s
#60	Qwen3.7 Plus none	Qwen	1	3.0	$0.023	0/1	1.21s
Total teste 1 Teste greșite 1 Cost total $0.023 Timp de răspuns (mediu) 1.21s
#61	GLM 5.2 none	Z.ai	1	3.0	$0.076	0/1	3.41s
Total teste 1 Teste greșite 1 Cost total $0.076 Timp de răspuns (mediu) 3.41s
#62	MiMo-V2-Flash medium	Xiaomi	1	3.0	$0.043	0/1	1.96s
Total teste 1 Teste greșite 1 Cost total $0.043 Timp de răspuns (mediu) 1.96s
#64	GLM 5.1 medium	Z.ai	1	3.0	$0.292	0/1	29.4s
Total teste 1 Teste greșite 1 Cost total $0.292 Timp de răspuns (mediu) 29.4s
#65	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.583	0/1	341.8s
Total teste 1 Teste greșite 1 Cost total $0.583 Timp de răspuns (mediu) 341.8s
#66	Gemini 3.5 Flash none	Google	1	2.8	$1.079	0/1	4.87s
Total teste 1 Teste greșite 1 Cost total $1.079 Timp de răspuns (mediu) 4.87s
#67	Gemini 3 Flash Preview none	Google	1	3.0	$0.025	0/1	1.07s
Total teste 1 Teste greșite 1 Cost total $0.025 Timp de răspuns (mediu) 1.07s
#68	Qwen3.7 Max none	Qwen	1	3.0	$0.054	0/1	856ms
Total teste 1 Teste greșite 1 Cost total $0.054 Timp de răspuns (mediu) 856ms
#70	Qwen3.5-Flash medium	Qwen	1	3.0	$0.080	0/1	49.0s
Total teste 1 Teste greșite 1 Cost total $0.080 Timp de răspuns (mediu) 49.0s
#71	Gemini 3.5 Flash minimal	Google	1	3.0	$0.108	0/1	1.76s
Total teste 1 Teste greșite 1 Cost total $0.108 Timp de răspuns (mediu) 1.76s
#72	Ring-2.6-1T medium	Inclusionai	1	3.0	$0.033	0/1	113.9s
Total teste 1 Teste greșite 1 Cost total $0.033 Timp de răspuns (mediu) 113.9s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
Total teste 1 Teste greșite 1 Cost total $0.683 Timp de răspuns (mediu) 234.2s
#74	Hy3 preview high	Tencent	1	3.0	$0.059	0/1	47.7s
Total teste 1 Teste greșite 1 Cost total $0.059 Timp de răspuns (mediu) 47.7s
#75	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.146	0/1	32.9s
Total teste 1 Teste greșite 1 Cost total $0.146 Timp de răspuns (mediu) 32.9s

←

1 3 4 5 9

→

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Cultură generală: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat