Clasament modele pentru Programare

Categorie AI BENCHY

Vezi ce modele AI se descurcă cel mai bine la Programare, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Teste corecte ↓.

Modele afișate

Media pentru Scor Programare

5.7

Cel mai bun model

Gemini 3.5 Flash 10.0

Motive de eșec

Cu motivul de eșec Răspuns greșit230 Cu motivul de eșec Eroare API43 Cu motivul de eșec Timp expirat25 Cu motivul de eșec Fără răspuns18 Cu motivul de eșec Nu a urmat instrucțiunile16 Cu motivul de eșec Formatare suplimentară12

189/189

Rang	Model	Companie	Scor Programare	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#30	Qwen3.7 Plus medium	Qwen	6.1	8.2	$0.177	1/3	108.6s
Total teste 3 Teste greșite 2 Cost total $0.177 Timp de răspuns (mediu) 108.6s
#32	GLM 5.2 high	Z.ai	6.4	8.0	$0.554	1/3	73.0s
Total teste 3 Teste greșite 2 Cost total $0.554 Timp de răspuns (mediu) 73.0s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.6	8.0	$0.310	1/3	180.7s
Total teste 3 Teste greșite 2 Cost total $0.310 Timp de răspuns (mediu) 180.7s
#35	Qwen3.5-27B medium	Qwen	6.2	7.9	$0.536	1/3	160.7s
Total teste 3 Teste greșite 2 Cost total $0.536 Timp de răspuns (mediu) 160.7s
#37	Qwen3.6 Plus medium	Qwen	6.1	7.8	$0.294	1/3	153.1s
Total teste 3 Teste greșite 2 Cost total $0.294 Timp de răspuns (mediu) 153.1s
#38	GPT-5.6 Terra medium	OpenAI	6.1	7.8	$0.496	1/3	7.19s
Total teste 3 Teste greșite 2 Cost total $0.496 Timp de răspuns (mediu) 7.19s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
Total teste 3 Teste greșite 2 Cost total $1.418 Timp de răspuns (mediu) 33.3s
#41	Gemini 3.1 Flash Lite Preview medium	Google	5.5	7.8	$0.068	1/3	4.09s
Total teste 3 Teste greșite 2 Cost total $0.068 Timp de răspuns (mediu) 4.09s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.2	7.8	$0.317	1/3	125.3s
Total teste 3 Teste greșite 2 Cost total $0.317 Timp de răspuns (mediu) 125.3s
#43	Gemini 3.1 Flash Lite medium	Google	5.5	7.8	$0.071	1/3	3.81s
Total teste 3 Teste greșite 2 Cost total $0.071 Timp de răspuns (mediu) 3.81s
#44	Kimi K2.6 medium	Moonshot AI	5.7	7.8	$0.888	1/3	214.4s
Total teste 3 Teste greșite 2 Cost total $0.888 Timp de răspuns (mediu) 214.4s
#45	Qwen3.5-122B-A10B medium	Qwen	6.0	7.7	$0.588	1/3	114.5s
Total teste 3 Teste greșite 2 Cost total $0.588 Timp de răspuns (mediu) 114.5s
#46	Claude Opus 4.8 low	Anthropic	6.6	7.7	$1.270	1/3	7.58s
Total teste 3 Teste greșite 2 Cost total $1.270 Timp de răspuns (mediu) 7.58s
#47	Grok 4.3 medium	X AI	5.9	7.7	$0.614	1/3	41.2s
Total teste 3 Teste greșite 2 Cost total $0.614 Timp de răspuns (mediu) 41.2s
#48	GPT-5.6 Terra low	OpenAI	6.6	7.7	$0.343	1/3	9.56s
Total teste 3 Teste greșite 2 Cost total $0.343 Timp de răspuns (mediu) 9.56s

Clasament Programare

Filtrează modelele

Top modele după Scor Programare

Scor Programare vs cost total

Top modele după Timp de răspuns (mediu)