Clasament modele pentru Programare

Categorie AI BENCHY

Vezi ce modele AI se descurcă cel mai bine la Programare, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

Media pentru Scor Programare

5.7

Cel mai bun model

Gemini 3 PRO Preview 3.0

Motive de eșec

Cu motivul de eșec Răspuns greșit230 Cu motivul de eșec Eroare API43 Cu motivul de eșec Timp expirat25 Cu motivul de eșec Fără răspuns18 Cu motivul de eșec Nu a urmat instrucțiunile16 Cu motivul de eșec Formatare suplimentară12

189/189

Rang	Model	Companie	Scor Programare	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#74	GLM 5.2 none	Z.ai	3.7	7.1	$0.042	0/3	7.55s
Total teste 3 Teste greșite 3 Cost total $0.042 Timp de răspuns (mediu) 7.55s
#46	Claude Opus 4.8 low	Anthropic	6.6	7.7	$1.270	1/3	7.58s
Total teste 3 Teste greșite 2 Cost total $1.270 Timp de răspuns (mediu) 7.58s
#148	Qwen3.6 35B A3B none	Qwen	5.5	5.2	$0.031	1/3	8.77s
Total teste 3 Teste greșite 2 Cost total $0.031 Timp de răspuns (mediu) 8.77s
#29	GPT-5.6 Terra high	OpenAI	7.6	8.2	$0.852	2/3	9.14s
Total teste 3 Teste greșite 1 Cost total $0.852 Timp de răspuns (mediu) 9.14s
#5	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$0.966	3/3	9.40s
Total teste 3 Teste greșite 0 Cost total $0.966 Timp de răspuns (mediu) 9.40s
#50	Step 3.7 Flash low	Stepfun	8.2	7.7	$0.341	2/3	9.46s
Total teste 3 Teste greșite 1 Cost total $0.341 Timp de răspuns (mediu) 9.46s
#48	GPT-5.6 Terra low	OpenAI	6.6	7.7	$0.343	1/3	9.56s
Total teste 3 Teste greșite 2 Cost total $0.343 Timp de răspuns (mediu) 9.56s
#184	gpt-oss-120b none	OpenAI	1.5	4.0	$0.010	0/1	9.57s
Total teste 1 Teste greșite 1 Cost total $0.010 Timp de răspuns (mediu) 9.57s
#22	GPT-5.2 Chat none	OpenAI	8.8	8.5	$0.393	2/3	9.82s
Total teste 3 Teste greșite 1 Cost total $0.393 Timp de răspuns (mediu) 9.82s
#55	GPT-5.6 Luna medium	OpenAI	5.4	7.6	$0.258	1/3	10.4s
Total teste 3 Teste greșite 2 Cost total $0.258 Timp de răspuns (mediu) 10.4s
#58	GPT-5.3 Chat none	OpenAI	5.6	7.5	$0.433	1/3	10.5s
Total teste 3 Teste greșite 2 Cost total $0.433 Timp de răspuns (mediu) 10.5s
#167	Ling-2.6-1T none	Inclusionai	3.8	4.7	$0.005	0/3	10.6s
Total teste 3 Teste greșite 3 Cost total $0.005 Timp de răspuns (mediu) 10.6s
#75	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
Total teste 3 Teste greșite 2 Cost total $0.043 Timp de răspuns (mediu) 10.7s
#114	Gemma 4 31B none	Google	5.5	6.1	$0.004	1/3	11.2s
Total teste 3 Teste greșite 2 Cost total $0.004 Timp de răspuns (mediu) 11.2s
#163	Ling-2.6-flash none	Inclusionai	5.3	4.9	$0.001	1/3	11.2s
Total teste 3 Teste greșite 2 Cost total $0.001 Timp de răspuns (mediu) 11.2s

Clasament Programare

Filtrează modelele

Top modele după Scor Programare

Scor Programare vs cost total

Top modele după Timp de răspuns (mediu)