Clasament modele pentru Programare

Categorie AI BENCHY

Vezi ce modele AI se descurcă cel mai bine la Programare, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Teste corecte ↓.

Modele afișate

Media pentru Scor Programare

5.7

Cel mai bun model

Gemini 3.5 Flash 10.0

Motive de eșec

Cu motivul de eșec Răspuns greșit230 Cu motivul de eșec Eroare API43 Cu motivul de eșec Timp expirat25 Cu motivul de eșec Fără răspuns18 Cu motivul de eșec Nu a urmat instrucțiunile16 Cu motivul de eșec Formatare suplimentară12

189/189

Rang	Model	Companie	Scor Programare	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#97	Gemini 3.1 Flash Lite high	Google	3.3	6.5	$2.044	1/1	137.6s
Total teste 1 Teste greșite 0 Cost total $2.044 Timp de răspuns (mediu) 137.6s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
Total teste 1 Teste greșite 0 Cost total $5.599 Timp de răspuns (mediu) 27.1s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
Total teste 1 Teste greșite 0 Cost total $0.547 Timp de răspuns (mediu) 21.4s
#187	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.3	3.5	$0.000	1/1	1.27s
Total teste 1 Teste greșite 0 Cost total $0.000 Timp de răspuns (mediu) 1.27s
#2	Gemini 3 Flash Preview medium	Google	8.6	9.6	$0.667	2/3	84.4s
Total teste 3 Teste greșite 1 Cost total $0.667 Timp de răspuns (mediu) 84.4s
#8	Gemini 3.5 Flash low	Google	7.8	9.2	$0.349	2/3	6.71s
Total teste 3 Teste greșite 1 Cost total $0.349 Timp de răspuns (mediu) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	7.9	9.2	$1.054	2/3	40.2s
Total teste 3 Teste greșite 1 Cost total $1.054 Timp de răspuns (mediu) 40.2s
#11	Gemini 3.5 Flash medium	Google	7.9	9.1	$0.582	2/3	12.6s
Total teste 3 Teste greșite 1 Cost total $0.582 Timp de răspuns (mediu) 12.6s
#12	GPT-5.5 medium	OpenAI	8.8	9.0	$3.679	2/3	59.8s
Total teste 3 Teste greșite 1 Cost total $3.679 Timp de răspuns (mediu) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	8.8	8.9	$0.960	2/3	146.5s
Total teste 3 Teste greșite 1 Cost total $0.960 Timp de răspuns (mediu) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	7.6	8.7	$0.679	2/3	13.0s
Total teste 3 Teste greșite 1 Cost total $0.679 Timp de răspuns (mediu) 13.0s
#17	GLM 5.2 medium	Z.ai	8.2	8.7	$0.179	2/3	41.0s
Total teste 3 Teste greșite 1 Cost total $0.179 Timp de răspuns (mediu) 41.0s
#20	GPT-5.4 medium	OpenAI	8.8	8.5	$1.210	2/3	44.4s
Total teste 3 Teste greșite 1 Cost total $1.210 Timp de răspuns (mediu) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	8.0	8.5	$0.175	2/3	156.7s
Total teste 3 Teste greșite 1 Cost total $0.175 Timp de răspuns (mediu) 156.7s
#22	GPT-5.2 Chat none	OpenAI	8.8	8.5	$0.393	2/3	9.82s
Total teste 3 Teste greșite 1 Cost total $0.393 Timp de răspuns (mediu) 9.82s

Clasament Programare

Filtrează modelele

Top modele după Scor Programare

Scor Programare vs cost total

Top modele după Timp de răspuns (mediu)