Clasament al eșecurilor pentru Nu a urmat instrucțiunile

Vezi ce modele AI se lovesc cel mai des de Nu a urmat instrucțiunile, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

Eșecuri totale

245

Modelul cel mai afectat

Nemotron 3 Nano Omni 30b A3b Reasoning 2

Categorii

În categoria Rezolvare de puzzle-uri90 În categoria Inteligență generală78 În categoria Trucuri anti-AI33 În categoria Respectarea instrucțiunilor18 În categoria Programare16 În categoria Apelare instrumente8 În categoria Combinat1 În categoria Specific domeniului1

140/140

Rang	Model	Companie	Număr de Nu a urmat instrucțiunile	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#129	Nemotron 3 Ultra none	NVIDIA	1	6.1	$0.095	8/22	3.87s
Total teste 22 Teste greșite 14 Cost total $0.095 Timp de răspuns (mediu) 3.87s
#154	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
Total teste 22 Teste greșite 16 Cost total $0.068 Timp de răspuns (mediu) 4.12s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
Total teste 22 Teste greșite 9 Cost total $0.117 Timp de răspuns (mediu) 4.27s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
Total teste 22 Teste greșite 9 Cost total $0.115 Timp de răspuns (mediu) 4.61s
#168	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
Total teste 22 Teste greșite 17 Cost total $0.025 Timp de răspuns (mediu) 4.62s
#196	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
Total teste 18 Teste greșite 12 Cost total $0.000 Timp de răspuns (mediu) 4.70s
#103	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
Total teste 22 Teste greșite 14 Cost total $0.090 Timp de răspuns (mediu) 4.76s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
Total teste 22 Teste greșite 9 Cost total $1.166 Timp de răspuns (mediu) 4.91s
#117	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
Total teste 22 Teste greșite 12 Cost total $0.249 Timp de răspuns (mediu) 5.04s
#123	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
Total teste 22 Teste greșite 12 Cost total $0.187 Timp de răspuns (mediu) 5.15s
#115	Gemma 4 31B none	Google	1	6.2	$0.035	10/22	5.34s
Total teste 22 Teste greșite 12 Cost total $0.035 Timp de răspuns (mediu) 5.34s
#161	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
Total teste 22 Teste greșite 18 Cost total $0.061 Timp de răspuns (mediu) 5.52s
#177	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
Total teste 22 Teste greșite 17 Cost total $0.008 Timp de răspuns (mediu) 5.97s
#112	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
Total teste 22 Teste greșite 14 Cost total $0.548 Timp de răspuns (mediu) 6.04s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
Total teste 22 Teste greșite 9 Cost total $0.571 Timp de răspuns (mediu) 6.88s

Eșecuri Nu a urmat instrucțiunile

Filtrează modelele

Top modele după Număr de Nu a urmat instrucțiunile

Număr de Nu a urmat instrucțiunile vs Scor

Top modele după Timp de răspuns (mediu)