Clasament modele pentru Cultură generală

Categorie AI BENCHY

Vezi ce modele AI se descurcă cel mai bine la Cultură generală, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Metrică ↑.

Modele afișate

Media pentru Scor Cultură generală

3.1

Cel mai bun model

Grok 4.20 Beta 0.0

Motive de eșec

Cu motivul de eșec Răspuns greșit133 Cu motivul de eșec Eroare API13 Cu motivul de eșec Fără răspuns8

169/169

Rang	Model	Companie	Scor Cultură generală	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#74	Hy3 preview high	Tencent	3.0	6.8	$0.059	0/1	47.7s
Total teste 1 Teste greșite 1 Cost total $0.059 Timp de răspuns (mediu) 47.7s
#75	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.146	0/1	32.9s
Total teste 1 Teste greșite 1 Cost total $0.146 Timp de răspuns (mediu) 32.9s
#76	MiMo-V2.5 medium	Xiaomi	3.0	6.7	$0.063	0/1	51.3s
Total teste 1 Teste greșite 1 Cost total $0.063 Timp de răspuns (mediu) 51.3s
#77	Mimo V2 PRO medium	Xiaomi	3.0	6.7	$0.333	0/1	82.7s
Total teste 1 Teste greșite 1 Cost total $0.333 Timp de răspuns (mediu) 82.7s
#78	gpt-oss-120b medium	OpenAI	3.0	6.7	$0.013	0/1	26.5s
Total teste 1 Teste greșite 1 Cost total $0.013 Timp de răspuns (mediu) 26.5s
#79	GPT-5 Nano medium	OpenAI	3.0	6.7	$0.081	0/1	20.1s
Total teste 1 Teste greșite 1 Cost total $0.081 Timp de răspuns (mediu) 20.1s
#80	Step 3.5 Flash medium	Stepfun	3.0	6.6	$0.070	0/1	108.4s
Total teste 1 Teste greșite 1 Cost total $0.070 Timp de răspuns (mediu) 108.4s
#81	Qwen3.6 27B medium	Qwen	3.0	6.6	$0.440	0/1	81.0s
Total teste 1 Teste greșite 1 Cost total $0.440 Timp de răspuns (mediu) 81.0s
#82	Gemini 3.1 Flash Lite Preview low	Google	3.0	6.5	$0.026	0/1	1.35s
Total teste 1 Teste greșite 1 Cost total $0.026 Timp de răspuns (mediu) 1.35s
#84	Gemini 3.1 Flash Lite Preview none	Google	3.0	6.4	$0.018	0/1	814ms
Total teste 1 Teste greșite 1 Cost total $0.018 Timp de răspuns (mediu) 814ms
#85	Gemini 3.1 Flash Lite low	Google	3.0	6.4	$0.028	0/1	1.46s
Total teste 1 Teste greșite 1 Cost total $0.028 Timp de răspuns (mediu) 1.46s
#86	Hy3 preview low	Tencent	3.0	6.4	$0.018	0/1	41.7s
Total teste 1 Teste greșite 1 Cost total $0.018 Timp de răspuns (mediu) 41.7s
#87	Nemotron 3 Super medium	NVIDIA	3.0	6.3	$0.021	0/1	55.3s
Total teste 1 Teste greșite 1 Cost total $0.021 Timp de răspuns (mediu) 55.3s
#88	Gemma 4 31B medium	Google	3.0	6.3	$0.033	0/1	90.1s
Total teste 1 Teste greșite 1 Cost total $0.033 Timp de răspuns (mediu) 90.1s
#89	Qwen3.5-35B-A3B medium	Qwen	3.0	6.3	$0.401	0/1	177.4s
Total teste 1 Teste greșite 1 Cost total $0.401 Timp de răspuns (mediu) 177.4s

Clasament Cultură generală

Filtrează modelele

Top modele după Scor Cultură generală

Scor Cultură generală vs cost total

Top modele după Timp de răspuns (mediu)