Clasament Rezolvare de puzzle-uri x Nu a urmat instrucțiunile

Vezi ce modele AI au cele mai mari șanse să întâmpine Nu a urmat instrucțiunile la Rezolvare de puzzle-uri, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Gemini 3.1 Flash Lite 2

Motive de eșec

Răspuns greșit201 Nu a urmat instrucțiunile90 Eroare API12 Formatare suplimentară8 Timp expirat5 Fără răspuns3

Categorii

Rezolvare de puzzle-uri90 Inteligență generală78 Trucuri anti-AI33 Respectarea instrucțiunilor18 Programare16 Apelare instrumente8 Combinat1 Specific domeniului1

86/86

Rang	Model	Companie	Număr de Nu a urmat instrucțiunile	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#139	GPT-5.4 none	OpenAI	1	5.6	$0.397	1/3	1.44s
Total teste 3 Teste greșite 2 Cost total $0.397 Timp de răspuns (mediu) 1.44s
#140	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.050	0/3	3.15s
Total teste 3 Teste greșite 3 Cost total $0.050 Timp de răspuns (mediu) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
Total teste 3 Teste greșite 3 Cost total $0.247 Timp de răspuns (mediu) 1.00s
#145	GLM 5V Turbo none	Z.ai	1	5.3	$0.052	1/3	2.40s
Total teste 3 Teste greșite 2 Cost total $0.052 Timp de răspuns (mediu) 2.40s
#146	Owl Alpha medium	Openrouter	1	5.3	$0.000	1/3	3.40s
Total teste 3 Teste greșite 2 Cost total $0.000 Timp de răspuns (mediu) 3.40s
#147	Mimo V2 PRO none	Xiaomi	1	6.0	$0.045	1/3	1.61s
Total teste 3 Teste greșite 2 Cost total $0.045 Timp de răspuns (mediu) 1.61s
#148	Owl Alpha none	Openrouter	1	5.4	$0.000	1/3	4.18s
Total teste 3 Teste greșite 2 Cost total $0.000 Timp de răspuns (mediu) 4.18s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
Total teste 3 Teste greșite 3 Cost total $0.044 Timp de răspuns (mediu) 23.7s
#152	Qwen3.6 27B none	Qwen	1	5.3	$0.087	1/3	5.15s
Total teste 3 Teste greșite 2 Cost total $0.087 Timp de răspuns (mediu) 5.15s
#154	MiMo-V2.5-Pro none	Xiaomi	1	6.7	$0.068	1/3	1.30s
Total teste 3 Teste greșite 2 Cost total $0.068 Timp de răspuns (mediu) 1.30s
#156	Gemma 4 26B A4B none	Google	1	6.2	$0.015	1/3	744ms
Total teste 3 Teste greșite 2 Cost total $0.015 Timp de răspuns (mediu) 744ms
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	3.1	$0.041	0/3	1.57s
Total teste 3 Teste greșite 3 Cost total $0.041 Timp de răspuns (mediu) 1.57s
#162	Ling-2.6-1T none	Inclusionai	1	3.1	$0.016	0/3	5.36s
Total teste 3 Teste greșite 3 Cost total $0.016 Timp de răspuns (mediu) 5.36s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
Total teste 3 Teste greșite 1 Cost total $2.310 Timp de răspuns (mediu) 46.7s
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
Total teste 3 Teste greșite 3 Cost total $0.022 Timp de răspuns (mediu) 399ms

←

1 2 3 4 5 6

→

Filtrează modelele

Top modele după Număr de Nu a urmat instrucțiunile

Număr de Nu a urmat instrucțiunile vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Rezolvare de puzzle-uri: Nu a urmat instrucțiunile

Filtrează modelele

Top modele după Număr de Nu a urmat instrucțiunile

Număr de Nu a urmat instrucțiunile vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat