Clasament modele pentru Programare

Categorie AI BENCHY

Vezi ce modele AI se descurcă cel mai bine la Programare, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Teste corecte ↓.

Modele afișate

Media pentru Scor Programare

5.7

Cel mai bun model

Gemini 3.5 Flash 10.0

Motive de eșec

Cu motivul de eșec Răspuns greșit230 Cu motivul de eșec Eroare API43 Cu motivul de eșec Timp expirat25 Cu motivul de eșec Fără răspuns18 Cu motivul de eșec Nu a urmat instrucțiunile16 Cu motivul de eșec Formatare suplimentară12

189/189

Rang	Model	Companie	Scor Programare	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#23	Step 3.7 Flash medium	Stepfun	8.8	8.5	$0.376	2/3	27.4s
Total teste 3 Teste greșite 1 Cost total $0.376 Timp de răspuns (mediu) 27.4s
#24	GLM 5 Turbo medium	Z.ai	8.2	8.4	$0.323	2/3	45.9s
Total teste 3 Teste greșite 1 Cost total $0.323 Timp de răspuns (mediu) 45.9s
#26	Grok 4.5 medium	X AI	7.6	8.3	$1.696	2/3	155.7s
Total teste 3 Teste greșite 1 Cost total $1.696 Timp de răspuns (mediu) 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	7.8	8.3	$0.027	2/3	50.6s
Total teste 3 Teste greșite 1 Cost total $0.027 Timp de răspuns (mediu) 50.6s
#28	Gemini 2.5 Flash medium	Google	7.8	8.2	$0.379	2/3	41.0s
Total teste 3 Teste greșite 1 Cost total $0.379 Timp de răspuns (mediu) 41.0s
#29	GPT-5.6 Terra high	OpenAI	7.6	8.2	$0.852	2/3	9.14s
Total teste 3 Teste greșite 1 Cost total $0.852 Timp de răspuns (mediu) 9.14s
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	8.4	8.1	$0.158	2/3	26.5s
Total teste 3 Teste greșite 1 Cost total $0.158 Timp de răspuns (mediu) 26.5s
#33	GPT-5.4 Mini medium	OpenAI	8.4	8.0	$0.526	2/3	57.9s
Total teste 3 Teste greșite 1 Cost total $0.526 Timp de răspuns (mediu) 57.9s
#36	Claude Sonnet 5 medium	Anthropic	9.0	7.9	$0.550	2/3	17.3s
Total teste 3 Teste greșite 1 Cost total $0.550 Timp de răspuns (mediu) 17.3s
#50	Step 3.7 Flash low	Stepfun	8.2	7.7	$0.341	2/3	9.46s
Total teste 3 Teste greșite 1 Cost total $0.341 Timp de răspuns (mediu) 9.46s
#57	Mercury 2 medium	Inception	8.2	7.5	$0.058	2/3	2.04s
Total teste 3 Teste greșite 1 Cost total $0.058 Timp de răspuns (mediu) 2.04s
#79	Kimi K2.7 Code medium	Moonshot AI	7.6	7.0	$0.581	2/3	146.7s
Total teste 3 Teste greșite 1 Cost total $0.581 Timp de răspuns (mediu) 146.7s
#80	Gemini 3.5 Flash none	Google	8.8	7.0	$1.079	2/3	34.7s
Total teste 3 Teste greșite 1 Cost total $1.079 Timp de răspuns (mediu) 34.7s
#89	Qwen3.6 35B A3B medium	Qwen	7.7	6.7	$0.146	2/3	50.5s
Total teste 3 Teste greșite 1 Cost total $0.146 Timp de răspuns (mediu) 50.5s
#95	Qwen3.6 27B medium	Qwen	7.7	6.6	$0.336	2/3	143.0s
Total teste 3 Teste greșite 1 Cost total $0.336 Timp de răspuns (mediu) 143.0s

Clasament Programare

Filtrează modelele

Top modele după Scor Programare

Scor Programare vs cost total

Top modele după Timp de răspuns (mediu)