Clasament Trucuri anti-AI x Nu a urmat instrucțiunile

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Nu a urmat instrucțiunile la Trucuri anti-AI, ca să găsești mai repede punctele slabe. Sortează după: Cost total ↓.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Kimi K2.6 1

Motive de eșec

Răspuns greșit250 Nu a urmat instrucțiunile30 Formatare suplimentară18 Eroare API12 Timp expirat4 Fără răspuns3

Categorii

Rezolvare de puzzle-uri82 Inteligență generală72 Trucuri anti-AI30 Programare16 Respectarea instrucțiunilor12 Apelare instrumente6 Combinat1 Specific domeniului1

29/29

Rang	Model	Companie	Număr de Nu a urmat instrucțiunile	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#35	Kimi K2.6 medium	Moonshot AI	1	7.0	$0.889	2/4	11.6s
Total teste 4 Teste greșite 2 Cost total $0.889 Timp de răspuns (mediu) 11.6s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
Total teste 4 Teste greșite 2 Cost total $0.548 Timp de răspuns (mediu) 7.81s
#56	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
Total teste 4 Teste greșite 2 Cost total $0.457 Timp de răspuns (mediu) 10.8s
#45	GPT-5.3 Chat none	OpenAI	1	6.7	$0.433	2/4	3.86s
Total teste 4 Teste greșite 2 Cost total $0.433 Timp de răspuns (mediu) 3.86s
#20	Step 3.7 Flash medium	Stepfun	1	8.7	$0.376	3/4	9.65s
Total teste 4 Teste greșite 1 Cost total $0.376 Timp de răspuns (mediu) 9.65s
#146	MiniMax M2.5 medium	Minimax	1	7.9	$0.303	2/4	20.8s
Total teste 4 Teste greșite 2 Cost total $0.303 Timp de răspuns (mediu) 20.8s
#16	GPT-5 Mini medium	OpenAI	1	7.1	$0.159	2/4	13.9s
Total teste 4 Teste greșite 2 Cost total $0.159 Timp de răspuns (mediu) 13.9s
#40	MiniMax M3 medium	Minimax	1	5.5	$0.131	1/4	14.9s
Total teste 4 Teste greșite 3 Cost total $0.131 Timp de răspuns (mediu) 14.9s
#127	MiniMax M2.7 medium	Minimax	1	7.9	$0.104	2/4	40.3s
Total teste 4 Teste greșite 2 Cost total $0.104 Timp de răspuns (mediu) 40.3s
#34	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.071	3/4	2.39s
Total teste 4 Teste greșite 1 Cost total $0.071 Timp de răspuns (mediu) 2.39s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.068	3/4	2.33s
Total teste 4 Teste greșite 1 Cost total $0.068 Timp de răspuns (mediu) 2.33s
#44	Mercury 2 medium	Inception	1	6.9	$0.058	2/4	1.12s
Total teste 4 Teste greșite 2 Cost total $0.058 Timp de răspuns (mediu) 1.12s
#157	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.054	1/4	15.0s
Total teste 4 Teste greșite 3 Cost total $0.054 Timp de răspuns (mediu) 15.0s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.034	0/4	4.02s
Total teste 4 Teste greșite 4 Cost total $0.034 Timp de răspuns (mediu) 4.02s
#144	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
Total teste 4 Teste greșite 1 Cost total $0.026 Timp de răspuns (mediu) 43.3s

Filtrează modelele

Top modele după Număr de Nu a urmat instrucțiunile

Număr de Nu a urmat instrucțiunile vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Trucuri anti-AI: Nu a urmat instrucțiunile

Filtrează modelele

Top modele după Număr de Nu a urmat instrucțiunile

Număr de Nu a urmat instrucțiunile vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat