Clasament Trucuri anti-AI x Nu a urmat instrucțiunile

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Nu a urmat instrucțiunile la Trucuri anti-AI, ca să găsești mai repede punctele slabe. Sortează după: Teste corecte ↑.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

DeepSeek V4 Pro 1

Motive de eșec

Răspuns greșit250 Nu a urmat instrucțiunile30 Formatare suplimentară18 Eroare API12 Timp expirat4 Fără răspuns3

Categorii

Rezolvare de puzzle-uri82 Inteligență generală72 Trucuri anti-AI30 Programare16 Respectarea instrucțiunilor12 Apelare instrumente6 Combinat1 Specific domeniului1

29/29

Rang	Model	Companie	Număr de Nu a urmat instrucțiunile	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#58	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.034	0/4	4.02s
Total teste 4 Teste greșite 4 Cost total $0.034 Timp de răspuns (mediu) 4.02s
#110	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
Total teste 4 Teste greșite 4 Cost total $0.000 Timp de răspuns (mediu) 2.78s
#114	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
Total teste 4 Teste greșite 4 Cost total $0.021 Timp de răspuns (mediu) 1.63s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.017	0/4	2.67s
Total teste 4 Teste greșite 4 Cost total $0.017 Timp de răspuns (mediu) 2.67s
#130	Qwen3 Coder Next none	Qwen	1	3.6	$0.009	0/4	3.31s
Total teste 4 Teste greșite 4 Cost total $0.009 Timp de răspuns (mediu) 3.31s
#148	Qwen3 Coder Next medium	Qwen	1	3.5	$0.008	0/4	8.64s
Total teste 4 Teste greșite 4 Cost total $0.008 Timp de răspuns (mediu) 8.64s
#161	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
Total teste 4 Teste greșite 4 Cost total $0.008 Timp de răspuns (mediu) 1.07s
#162	Laguna Xs.2 none	Poolside	1	3.0	$0.000	0/4	534ms
Total teste 4 Teste greșite 4 Cost total $0.000 Timp de răspuns (mediu) 534ms
#40	MiniMax M3 medium	Minimax	1	5.5	$0.131	1/4	14.9s
Total teste 4 Teste greșite 3 Cost total $0.131 Timp de răspuns (mediu) 14.9s
#157	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.054	1/4	15.0s
Total teste 4 Teste greșite 3 Cost total $0.054 Timp de răspuns (mediu) 15.0s
#158	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
Total teste 4 Teste greșite 3 Cost total $0.003 Timp de răspuns (mediu) 11.1s
#163	Granite 4.1 8B none	IBM Granite	1	4.9	$0.003	1/4	844ms
Total teste 4 Teste greșite 3 Cost total $0.003 Timp de răspuns (mediu) 844ms
#16	GPT-5 Mini medium	OpenAI	1	7.1	$0.159	2/4	13.9s
Total teste 4 Teste greșite 2 Cost total $0.159 Timp de răspuns (mediu) 13.9s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
Total teste 4 Teste greșite 2 Cost total $0.548 Timp de răspuns (mediu) 7.81s
#35	Kimi K2.6 medium	Moonshot AI	1	7.0	$0.889	2/4	11.6s
Total teste 4 Teste greșite 2 Cost total $0.889 Timp de răspuns (mediu) 11.6s

Filtrează modelele

Top modele după Număr de Nu a urmat instrucțiunile

Număr de Nu a urmat instrucțiunile vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Trucuri anti-AI: Nu a urmat instrucțiunile

Filtrează modelele

Top modele după Număr de Nu a urmat instrucțiunile

Număr de Nu a urmat instrucțiunile vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat