Eșecuri pe categorii AI BENCHY

Respectarea instrucțiunilor

Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Respectarea instrucțiunilor, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Motive de eșec asociate

Răspuns greșit26 Nu a urmat instrucțiunile9

Categorii asociate

Specific domeniului98 Rezolvare de puzzle-uri55 Trucuri anti-AI53 Respectarea instrucțiunilor26 Combinat21 Parsare și extragere de date14 Inteligență generală6 Apelare instrumente2

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Teste corecte	Timp de răspuns (mediu)
#40	Qwen3.5-122B-A10B none	Qwen	2	4.5	0/2	585ms
#41	Qwen3.5-27B none	Qwen	2	4.5	0/2	815ms
#48	Qwen3 Coder Next none	Qwen	2	4.5	0/2	7.71s
#53	Grok 4.1 Fast none	X AI	2	10.0	0/2	923ms
#55	LFM2-24B-A2B none	Liquid	2	4.5	0/2	1.09s
#15	GPT-5.2 Chat none	OpenAI	1	6.0	1/2	5.46s
#19	GPT-5.3 Chat none	OpenAI	1	9.0	1/2	3.29s
#20	Gemini 3 Flash Preview none	Google	1	5.5	1/2	1.58s
#25	Claude Sonnet 4.6 none	Anthropic	1	5.5	1/2	1.96s
#37	Qwen3.5-Flash none	Qwen	1	5.0	1/2	8.81s
#38	Gemini 2.5 Flash none	Google	1	9.0	1/2	672ms
#42	Qwen3.5-35B-A3B none	Qwen	1	5.0	1/2	809ms
#44	GPT-5.4 none	OpenAI	1	5.5	1/2	1.07s
#45	Trinity Large Preview none	Arcee AI	1	3.5	0/2	1.09s
#46	Kimi K2.5 none	Moonshot AI	1	5.5	1/2	2.67s
#47	GPT-4o-mini none	OpenAI	1	4.5	0/2	1.27s
#49	GLM 4.7 Flash none	Z.ai	1	5.5	1/2	888ms
#50	Qwen3 Coder Next medium	Qwen	1	4.5	0/2	7.34s
#51	Mercury 2 none	Inception	1	5.5	1/2	551ms
#52	GLM 4.7 Flash medium	Z.ai	1	5.0	1/2	2.97s
#54	MiMo-V2-Flash none	Xiaomi	1	5.5	1/2	857ms

Top modele după Număr de Răspuns greșit