Clasament Programare x Fără răspuns

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Fără răspuns la Programare, ca să găsești mai repede punctele slabe. Sortează după: Număr de eșecuri ↑.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

GLM 5 Turbo 1

Motive de eșec

Răspuns greșit230 Eroare API43 Timp expirat23 Fără răspuns18 Nu a urmat instrucțiunile16 Formatare suplimentară12

Categorii

Programare18 Cultură generală10 Specific domeniului6 Parsare și extragere de date5 Trucuri anti-AI4 Combinat3 Apelare instrumente2 Respectarea instrucțiunilor2 Rezolvare de puzzle-uri2

16/16

Rang	Model	Companie	Număr de Fără răspuns	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#24	GLM 5 Turbo medium	Z.ai	1	8.2	$0.323	2/3	45.9s
Total teste 3 Teste greșite 1 Cost total $0.323 Timp de răspuns (mediu) 45.9s
#43	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
Total teste 3 Teste greșite 2 Cost total $0.888 Timp de răspuns (mediu) 214.4s
#55	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
Total teste 3 Teste greșite 2 Cost total $0.348 Timp de răspuns (mediu) 217.5s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Total teste 3 Teste greșite 3 Cost total $0.288 Timp de răspuns (mediu) 109.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
Total teste 3 Teste greșite 3 Cost total $0.683 Timp de răspuns (mediu) 183.9s
#88	Qwen3.6 35B A3B medium	Qwen	1	7.7	$0.146	2/3	50.5s
Total teste 3 Teste greșite 1 Cost total $0.146 Timp de răspuns (mediu) 50.5s
#93	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
Total teste 2 Teste greșite 2 Cost total $0.070 Timp de răspuns (mediu) 258.4s
#94	Qwen3.6 27B medium	Qwen	1	7.7	$0.336	2/3	143.0s
Total teste 3 Teste greșite 1 Cost total $0.336 Timp de răspuns (mediu) 143.0s
#102	Gemma 4 31B medium	Google	1	4.3	$0.033	0/3	219.8s
Total teste 3 Teste greșite 3 Cost total $0.033 Timp de răspuns (mediu) 219.8s
#103	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
Total teste 3 Teste greșite 2 Cost total $0.401 Timp de răspuns (mediu) 206.6s
#146	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
Total teste 3 Teste greșite 2 Cost total $0.100 Timp de răspuns (mediu) 101.9s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
Total teste 3 Teste greșite 3 Cost total $0.303 Timp de răspuns (mediu) 188.6s
#176	GLM 4.7 Flash medium	Z.ai	1	3.2	$0.054	0/3	55.3s
Total teste 3 Teste greșite 3 Cost total $0.054 Timp de răspuns (mediu) 55.3s
#184	Qwen3.5-9B medium	Qwen	1	2.9	$0.036	0/3	100.9s
Total teste 3 Teste greșite 3 Cost total $0.036 Timp de răspuns (mediu) 100.9s
#71	Gemma 4 26B A4B medium	Google	2	2.9	$0.045	0/3	272.5s
Total teste 3 Teste greșite 3 Cost total $0.045 Timp de răspuns (mediu) 272.5s

Filtrează modelele

Top modele după Număr de Fără răspuns

Număr de Fără răspuns vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Programare: Fără răspuns

Filtrează modelele

Top modele după Număr de Fără răspuns

Număr de Fără răspuns vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat