Clasament modele pentru Combinat

Vezi ce modele AI se descurcă cel mai bine la Combinat, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Metrică ↑.

Modele afișate

Media pentru Scor Combinat

5.6

Cel mai bun model

Gemini 3 PRO Preview 1.5

Motive de eșec

Cu motivul de eșec Apel de instrument invalid91 Cu motivul de eșec Răspuns greșit69 Cu motivul de eșec Fără răspuns32 Cu motivul de eșec Eroare API26 Cu motivul de eșec Timp expirat5 Cu motivul de eșec Formatare suplimentară1 Cu motivul de eșec Nu a urmat instrucțiunile1

216/216

Rang	Model	Companie	Scor Combinat	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#179	DeepSeek V3.2 none	DeepSeek	4.8	5.0	$0.054	0/2	113.5s
Total teste 2 Teste greșite 2 Cost total $0.054 Timp de răspuns (mediu) 113.5s
#119	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
Total teste 1 Teste greșite 0 Cost total $0.043 Timp de răspuns (mediu) 75.7s
#42	GLM 5.2 medium	Z.ai	5.0	7.8	$0.187	1/1	52.0s
Total teste 1 Teste greșite 0 Cost total $0.187 Timp de răspuns (mediu) 52.0s
#46	GLM 5 medium	Z.ai	5.0	7.7	$0.307	1/1	29.0s
Total teste 1 Teste greșite 0 Cost total $0.307 Timp de răspuns (mediu) 29.0s
#53	GLM 5 Turbo medium	Z.ai	5.0	7.6	$0.323	1/1	13.9s
Total teste 1 Teste greșite 0 Cost total $0.323 Timp de răspuns (mediu) 13.9s
#106	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
Total teste 1 Teste greșite 0 Cost total $0.018 Timp de răspuns (mediu) 46.0s
#137	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
Total teste 1 Teste greșite 0 Cost total $0.750 Timp de răspuns (mediu) 20.9s
#140	Mimo V2 Omni medium	Xiaomi	5.0	5.9	$0.683	1/1	25.9s
Total teste 1 Teste greșite 0 Cost total $0.683 Timp de răspuns (mediu) 25.9s
#141	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
Total teste 1 Teste greșite 0 Cost total $0.048 Timp de răspuns (mediu) 113.1s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	1/1	149.2s
Total teste 1 Teste greșite 0 Cost total $2.044 Timp de răspuns (mediu) 149.2s
#159	Hy3 preview low	Tencent	5.0	5.5	$0.015	1/1	78.7s
Total teste 1 Teste greșite 0 Cost total $0.015 Timp de răspuns (mediu) 78.7s
#169	Gemini 3.1 Flash Lite Preview high	Google	5.0	5.3	$2.310	1/1	280.5s
Total teste 1 Teste greșite 0 Cost total $2.310 Timp de răspuns (mediu) 280.5s
#181	Qwen3.6 Plus Preview medium	Qwen	5.0	4.9	$0.000	1/1	35.0s
Total teste 1 Teste greșite 0 Cost total $0.000 Timp de răspuns (mediu) 35.0s
#191	Grok 4.1 Fast medium	X AI	5.0	4.7	$0.069	1/1	37.6s
Total teste 1 Teste greșite 0 Cost total $0.069 Timp de răspuns (mediu) 37.6s
#148	Qwen3.5-122B-A10B none	Qwen	5.2	5.7	$0.247	0/2	129.3s
Total teste 2 Teste greșite 2 Cost total $0.247 Timp de răspuns (mediu) 129.3s

Clasament Combinat

Filtrează modelele

Top modele după Scor Combinat

Scor Combinat vs cost total

Top modele după Timp de răspuns (mediu)