Clasament al eșecurilor pentru Nu a urmat instrucțiunile

Vezi ce modele AI se lovesc cel mai des de Nu a urmat instrucțiunile, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Număr de eșecuri ↑.

Modele afișate

Eșecuri totale

245

Modelul cel mai afectat

Gemini 3.5 Flash 1

Categorii

În categoria Rezolvare de puzzle-uri90 În categoria Inteligență generală78 În categoria Trucuri anti-AI33 În categoria Respectarea instrucțiunilor18 În categoria Programare16 În categoria Apelare instrumente8 În categoria Combinat1 În categoria Specific domeniului1

140/140

Rang	Model	Companie	Număr de Nu a urmat instrucțiunile	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
Total teste 22 Teste greșite 9 Cost total $0.117 Timp de răspuns (mediu) 4.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
Total teste 22 Teste greșite 9 Cost total $1.166 Timp de răspuns (mediu) 4.91s
#71	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
Total teste 22 Teste greșite 11 Cost total $0.106 Timp de răspuns (mediu) 12.1s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
Total teste 22 Teste greșite 11 Cost total $0.078 Timp de răspuns (mediu) 68.6s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
Total teste 22 Teste greșite 11 Cost total $0.101 Timp de răspuns (mediu) 92.5s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
Total teste 22 Teste greșite 11 Cost total $0.467 Timp de răspuns (mediu) 24.0s
#83	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
Total teste 22 Teste greșite 11 Cost total $0.524 Timp de răspuns (mediu) 2.16s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
Total teste 22 Teste greșite 10 Cost total $0.738 Timp de răspuns (mediu) 44.7s
#88	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
Total teste 22 Teste greșite 8 Cost total $0.300 Timp de răspuns (mediu) 2.65s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
Total teste 22 Teste greșite 9 Cost total $0.746 Timp de răspuns (mediu) 58.1s
#91	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
Total teste 22 Teste greșite 12 Cost total $0.391 Timp de răspuns (mediu) 100.3s
#93	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
Total teste 21 Teste greșite 10 Cost total $0.457 Timp de răspuns (mediu) 23.1s
#96	GLM 5.2 none	Z.ai	1	6.6	$0.151	12/22	9.34s
Total teste 22 Teste greșite 10 Cost total $0.151 Timp de răspuns (mediu) 9.34s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
Total teste 22 Teste greșite 12 Cost total $0.779 Timp de răspuns (mediu) 106.3s
#100	Hy3 preview medium	Tencent	1	6.5	$0.018	14/21	16.3s
Total teste 21 Teste greșite 7 Cost total $0.018 Timp de răspuns (mediu) 16.3s

Eșecuri Nu a urmat instrucțiunile

Filtrează modelele

Top modele după Număr de Nu a urmat instrucțiunile

Număr de Nu a urmat instrucțiunile vs Scor

Top modele după Timp de răspuns (mediu)