Clasament modele pentru Programare

Categorie AI BENCHY

Vezi ce modele AI se descurcă cel mai bine la Programare, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Metrică ↑.

Modele afișate

Media pentru Scor Programare

5.7

Cel mai bun model

Gemini 3.1 Flash Lite Preview 0.0

Motive de eșec

Cu motivul de eșec Răspuns greșit230 Cu motivul de eșec Eroare API43 Cu motivul de eșec Timp expirat25 Cu motivul de eșec Fără răspuns18 Cu motivul de eșec Nu a urmat instrucțiunile16 Cu motivul de eșec Formatare suplimentară12

189/189

Rang	Model	Companie	Scor Programare	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#146	DeepSeek V3.2 none	DeepSeek	3.1	5.3	$0.016	0/3	14.5s
Total teste 3 Teste greșite 3 Cost total $0.016 Timp de răspuns (mediu) 14.5s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
Total teste 3 Teste greșite 3 Cost total $0.020 Timp de răspuns (mediu) 147.3s
#159	GPT-4o-mini none	OpenAI	3.2	5.0	$0.006	0/3	1.63s
Total teste 3 Teste greșite 3 Cost total $0.006 Timp de răspuns (mediu) 1.63s
#177	GLM 4.7 Flash medium	Z.ai	3.2	4.3	$0.054	0/3	55.3s
Total teste 3 Teste greșite 3 Cost total $0.054 Timp de răspuns (mediu) 55.3s
#87	Mimo V2 Omni medium	Xiaomi	3.3	6.8	$0.683	0/3	183.9s
Total teste 3 Teste greșite 3 Cost total $0.683 Timp de răspuns (mediu) 183.9s
#162	Nemotron 3 Super none	NVIDIA	3.3	4.9	$0.006	0/3	2.64s
Total teste 3 Teste greșite 3 Cost total $0.006 Timp de răspuns (mediu) 2.64s
#62	Claude Opus 4.7 none	Anthropic	3.3	7.4	$0.505	1/1	2.84s
Total teste 1 Teste greșite 0 Cost total $0.505 Timp de răspuns (mediu) 2.84s
#83	Grok 4.20 Beta medium	X AI	3.3	6.8	$0.750	1/1	31.4s
Total teste 1 Teste greșite 0 Cost total $0.750 Timp de răspuns (mediu) 31.4s
#97	Gemini 3.1 Flash Lite high	Google	3.3	6.5	$2.044	1/1	137.6s
Total teste 1 Teste greșite 0 Cost total $2.044 Timp de răspuns (mediu) 137.6s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
Total teste 1 Teste greșite 0 Cost total $5.599 Timp de răspuns (mediu) 27.1s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
Total teste 1 Teste greșite 0 Cost total $0.547 Timp de răspuns (mediu) 21.4s
#187	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.3	3.5	$0.000	1/1	1.27s
Total teste 1 Teste greșite 0 Cost total $0.000 Timp de răspuns (mediu) 1.27s
#171	Mercury 2 none	Inception	3.4	4.6	$0.011	0/3	1.03s
Total teste 3 Teste greșite 3 Cost total $0.011 Timp de răspuns (mediu) 1.03s
#166	MiniMax M2.5 medium	Minimax	3.4	4.7	$0.303	0/3	188.6s
Total teste 3 Teste greșite 3 Cost total $0.303 Timp de răspuns (mediu) 188.6s
#157	Trinity Large Preview none	Arcee AI	3.7	5.0	$0.008	0/3	14.3s
Total teste 3 Teste greșite 3 Cost total $0.008 Timp de răspuns (mediu) 14.3s

Clasament Programare

Filtrează modelele

Top modele după Scor Programare

Scor Programare vs cost total

Top modele după Timp de răspuns (mediu)