Clasament Programare x Formatare suplimentară

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Formatare suplimentară la Programare, ca să găsești mai repede punctele slabe. Sortează după: Teste corecte ↑.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

GLM 5.1 1

Motive de eșec

Răspuns greșit230 Eroare API43 Timp expirat23 Fără răspuns18 Nu a urmat instrucțiunile16 Formatare suplimentară12

Categorii

Trucuri anti-AI20 Specific domeniului13 Programare12 Rezolvare de puzzle-uri6 Parsare și extragere de date4 Respectarea instrucțiunilor3 Combinat1

12/12

Rang	Model	Companie	Număr de Formatare suplimentară	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Total teste 3 Teste greșite 3 Cost total $0.288 Timp de răspuns (mediu) 109.6s
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
Total teste 3 Teste greșite 3 Cost total $0.021 Timp de răspuns (mediu) 2.75s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Total teste 3 Teste greșite 3 Cost total $0.003 Timp de răspuns (mediu) 775ms
#38	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
Total teste 3 Teste greșite 2 Cost total $1.418 Timp de răspuns (mediu) 33.3s
#45	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
Total teste 3 Teste greșite 2 Cost total $1.270 Timp de răspuns (mediu) 7.58s
#46	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
Total teste 3 Teste greșite 2 Cost total $0.614 Timp de răspuns (mediu) 41.2s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Total teste 3 Teste greșite 2 Cost total $2.053 Timp de răspuns (mediu) 30.1s
#51	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
Total teste 3 Teste greșite 2 Cost total $0.131 Timp de răspuns (mediu) 144.7s
#53	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
Total teste 3 Teste greșite 2 Cost total $0.927 Timp de răspuns (mediu) 108.5s
#63	MiMo-V2.5-Pro medium	Xiaomi	1	6.2	$0.106	1/3	92.1s
Total teste 3 Teste greșite 2 Cost total $0.106 Timp de răspuns (mediu) 92.1s
#67	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
Total teste 3 Teste greșite 2 Cost total $0.316 Timp de răspuns (mediu) 5.19s
#126	Owl Alpha none	Openrouter	1	5.6	$0.000	1/3	36.9s
Total teste 3 Teste greșite 2 Cost total $0.000 Timp de răspuns (mediu) 36.9s

Filtrează modelele

Top modele după Număr de Formatare suplimentară

Număr de Formatare suplimentară vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Programare: Formatare suplimentară

Filtrează modelele

Top modele după Număr de Formatare suplimentară

Număr de Formatare suplimentară vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat