Clasament modele pentru Programare

Categorie AI BENCHY

Vezi ce modele AI se descurcă cel mai bine la Programare, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Metrică ↑.

Modele afișate

Media pentru Scor Programare

5.7

Cel mai bun model

Gemini 3.1 Flash Lite Preview 0.0

Motive de eșec

Cu motivul de eșec Răspuns greșit230 Cu motivul de eșec Eroare API43 Cu motivul de eșec Timp expirat25 Cu motivul de eșec Fără răspuns18 Cu motivul de eșec Nu a urmat instrucțiunile16 Cu motivul de eșec Formatare suplimentară12

189/189

Rang	Model	Companie	Scor Programare	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#63	Seed-2.0-Mini medium	Bytedance Seed	5.5	7.4	$0.044	1/3	220.5s
Total teste 3 Teste greșite 2 Cost total $0.044 Timp de răspuns (mediu) 220.5s
#128	Kimi K2.6 none	Moonshot AI	5.5	5.8	$0.078	1/3	82.6s
Total teste 3 Teste greșite 2 Cost total $0.078 Timp de răspuns (mediu) 82.6s
#58	GPT-5.3 Chat none	OpenAI	5.6	7.5	$0.433	1/3	10.5s
Total teste 3 Teste greșite 2 Cost total $0.433 Timp de răspuns (mediu) 10.5s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
Total teste 3 Teste greșite 2 Cost total $0.034 Timp de răspuns (mediu) 13.4s
#107	Seed-2.0-Lite none	Bytedance Seed	5.6	6.2	$0.019	1/3	2.83s
Total teste 3 Teste greșite 2 Cost total $0.019 Timp de răspuns (mediu) 2.83s
#85	Gemini 3.5 Flash minimal	Google	5.6	6.8	$0.108	1/3	2.75s
Total teste 3 Teste greșite 2 Cost total $0.108 Timp de răspuns (mediu) 2.75s
#127	Owl Alpha none	Openrouter	5.6	5.8	$0.000	1/3	36.9s
Total teste 3 Teste greșite 2 Cost total $0.000 Timp de răspuns (mediu) 36.9s
#54	Grok Build 0.1 medium	X AI	5.7	7.6	$0.927	1/3	108.5s
Total teste 3 Teste greșite 2 Cost total $0.927 Timp de răspuns (mediu) 108.5s
#147	MiniMax M2.7 medium	Minimax	5.7	5.2	$0.100	1/3	101.9s
Total teste 3 Teste greșite 2 Cost total $0.100 Timp de răspuns (mediu) 101.9s
#44	Kimi K2.6 medium	Moonshot AI	5.7	7.8	$0.888	1/3	214.4s
Total teste 3 Teste greșite 2 Cost total $0.888 Timp de răspuns (mediu) 214.4s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
Total teste 3 Teste greșite 2 Cost total $1.418 Timp de răspuns (mediu) 33.3s
#49	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
Total teste 3 Teste greșite 2 Cost total $2.053 Timp de răspuns (mediu) 30.1s
#65	Gemini 3 Flash Preview low	Google	5.8	7.4	$0.111	1/3	6.00s
Total teste 3 Teste greșite 2 Cost total $0.111 Timp de răspuns (mediu) 6.00s
#121	Qwen3.5-27B none	Qwen	5.8	5.9	$0.015	1/3	1.80s
Total teste 3 Teste greșite 2 Cost total $0.015 Timp de răspuns (mediu) 1.80s
#104	Qwen3.5-35B-A3B medium	Qwen	5.9	6.3	$0.401	1/3	206.6s
Total teste 3 Teste greșite 2 Cost total $0.401 Timp de răspuns (mediu) 206.6s

Clasament Programare

Filtrează modelele

Top modele după Scor Programare

Scor Programare vs cost total

Top modele după Timp de răspuns (mediu)