Clasament modele pentru Programare

Categorie AI BENCHY

Vezi ce modele AI se descurcă cel mai bine la Programare, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

Media pentru Scor Programare

5.7

Cel mai bun model

Gemini 3 PRO Preview 3.0

Motive de eșec

Cu motivul de eșec Răspuns greșit230 Cu motivul de eșec Eroare API43 Cu motivul de eșec Timp expirat25 Cu motivul de eșec Fără răspuns18 Cu motivul de eșec Nu a urmat instrucțiunile16 Cu motivul de eșec Formatare suplimentară12

189/189

Rang	Model	Companie	Scor Programare	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
Total teste 3 Teste greșite 2 Cost total $0.539 Timp de răspuns (mediu) 3.29s
#132	Claude Sonnet 5 none	Anthropic	4.6	5.7	$0.287	0/3	3.67s
Total teste 3 Teste greșite 3 Cost total $0.287 Timp de răspuns (mediu) 3.67s
#43	Gemini 3.1 Flash Lite medium	Google	5.5	7.8	$0.071	1/3	3.81s
Total teste 3 Teste greșite 2 Cost total $0.071 Timp de răspuns (mediu) 3.81s
#41	Gemini 3.1 Flash Lite Preview medium	Google	5.5	7.8	$0.068	1/3	4.09s
Total teste 3 Teste greșite 2 Cost total $0.068 Timp de răspuns (mediu) 4.09s
#139	Gemma 4 26B A4B none	Google	3.7	5.5	$0.004	0/3	4.16s
Total teste 3 Teste greșite 3 Cost total $0.004 Timp de răspuns (mediu) 4.16s
#138	Qwen3.6 27B none	Qwen	5.5	5.5	$0.025	1/3	4.16s
Total teste 3 Teste greșite 2 Cost total $0.025 Timp de răspuns (mediu) 4.16s
#178	Hy3 preview none	Tencent	2.7	4.3	$0.003	0/3	4.56s
Total teste 3 Teste greșite 3 Cost total $0.003 Timp de răspuns (mediu) 4.56s
#108	GPT-5.6 Luna low	OpenAI	5.5	6.2	$0.141	1/3	4.61s
Total teste 3 Teste greșite 2 Cost total $0.141 Timp de răspuns (mediu) 4.61s
#134	GLM 5.1 none	Z.ai	3.9	5.6	$0.057	0/3	4.96s
Total teste 3 Teste greșite 3 Cost total $0.057 Timp de răspuns (mediu) 4.96s
#118	GLM 5 none	Z.ai	4.0	6.0	$0.027	0/3	5.12s
Total teste 3 Teste greșite 3 Cost total $0.027 Timp de răspuns (mediu) 5.12s
#68	Claude Sonnet 4.6 none	Anthropic	5.5	7.3	$0.316	1/3	5.19s
Total teste 3 Teste greșite 2 Cost total $0.316 Timp de răspuns (mediu) 5.19s
#155	Qwen3.5-9B none	Qwen	3.9	5.1	$0.006	0/3	5.60s
Total teste 3 Teste greșite 3 Cost total $0.006 Timp de răspuns (mediu) 5.60s
#65	Gemini 3 Flash Preview low	Google	5.8	7.4	$0.111	1/3	6.00s
Total teste 3 Teste greșite 2 Cost total $0.111 Timp de răspuns (mediu) 6.00s
#8	Gemini 3.5 Flash low	Google	7.8	9.2	$0.349	2/3	6.71s
Total teste 3 Teste greșite 1 Cost total $0.349 Timp de răspuns (mediu) 6.71s
#38	GPT-5.6 Terra medium	OpenAI	6.1	7.8	$0.496	1/3	7.19s
Total teste 3 Teste greșite 2 Cost total $0.496 Timp de răspuns (mediu) 7.19s

Clasament Programare

Filtrează modelele

Top modele după Scor Programare

Scor Programare vs cost total

Top modele după Timp de răspuns (mediu)