Clasament modele pentru Programare

Categorie AI BENCHY

Vezi ce modele AI se descurcă cel mai bine la Programare, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Teste corecte ↓.

Modele afișate

Media pentru Scor Programare

5.7

Cel mai bun model

Gemini 3.5 Flash 10.0

Motive de eșec

Cu motivul de eșec Răspuns greșit230 Cu motivul de eșec Eroare API43 Cu motivul de eșec Timp expirat25 Cu motivul de eșec Fără răspuns18 Cu motivul de eșec Nu a urmat instrucțiunile16 Cu motivul de eșec Formatare suplimentară12

189/189

Rang	Model	Companie	Scor Programare	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#68	Claude Sonnet 4.6 none	Anthropic	5.5	7.3	$0.316	1/3	5.19s
Total teste 3 Teste greșite 2 Cost total $0.316 Timp de răspuns (mediu) 5.19s
#69	GLM 5V Turbo medium	Z.ai	6.0	7.3	$0.457	1/3	63.4s
Total teste 3 Teste greșite 2 Cost total $0.457 Timp de răspuns (mediu) 63.4s
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
Total teste 3 Teste greșite 2 Cost total $0.539 Timp de răspuns (mediu) 3.29s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
Total teste 3 Teste greșite 2 Cost total $0.034 Timp de răspuns (mediu) 13.4s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
Total teste 3 Teste greșite 2 Cost total $0.023 Timp de răspuns (mediu) 2.15s
#75	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
Total teste 3 Teste greșite 2 Cost total $0.043 Timp de răspuns (mediu) 10.7s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
Total teste 3 Teste greșite 2 Cost total $0.036 Timp de răspuns (mediu) 70.3s
#81	Gemini 3 Flash Preview none	Google	5.5	6.9	$0.025	1/3	1.80s
Total teste 3 Teste greșite 2 Cost total $0.025 Timp de răspuns (mediu) 1.80s
#82	Qwen3.7 Max none	Qwen	5.5	6.9	$0.054	1/3	1.35s
Total teste 3 Teste greșite 2 Cost total $0.054 Timp de răspuns (mediu) 1.35s
#85	Gemini 3.5 Flash minimal	Google	5.6	6.8	$0.108	1/3	2.75s
Total teste 3 Teste greșite 2 Cost total $0.108 Timp de răspuns (mediu) 2.75s
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
Total teste 3 Teste greșite 2 Cost total $0.033 Timp de răspuns (mediu) 59.6s
#88	Hy3 preview high	Tencent	5.3	6.8	$0.048	1/3	99.8s
Total teste 3 Teste greșite 2 Cost total $0.048 Timp de răspuns (mediu) 99.8s
#90	MiMo-V2.5 medium	Xiaomi	6.2	6.7	$0.061	1/3	97.1s
Total teste 3 Teste greșite 2 Cost total $0.061 Timp de răspuns (mediu) 97.1s
#91	Mimo V2 PRO medium	Xiaomi	6.0	6.7	$0.333	1/3	94.2s
Total teste 3 Teste greșite 2 Cost total $0.333 Timp de răspuns (mediu) 94.2s
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
Total teste 3 Teste greșite 2 Cost total $0.013 Timp de răspuns (mediu) 38.4s

Clasament Programare

Filtrează modelele

Top modele după Scor Programare

Scor Programare vs cost total

Top modele după Timp de răspuns (mediu)