AI BENCHY زمرہ ناکامیاں

ہدایات کی پیروی

غلط جواب

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

متعلقہ ناکامی کی وجوہات

غلط جواب26 ہدایات پر عمل نہیں کیا9

متعلقہ زمرے

ڈومین مخصوص98 پہیلی حل کرنا55 اینٹی اے آئی چالیں53 ہدایات کی پیروی26 مشترکہ21 ڈیٹا پارسنگ اور استخراج14 عمومی ذہانت6 ٹول کالنگ2

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#40	Qwen3.5-122B-A10B none	Qwen	2	4.5	0/2	585ms
#41	Qwen3.5-27B none	Qwen	2	4.5	0/2	815ms
#48	Qwen3 Coder Next none	Qwen	2	4.5	0/2	7.71s
#53	Grok 4.1 Fast none	X AI	2	10.0	0/2	923ms
#55	LFM2-24B-A2B none	Liquid	2	4.5	0/2	1.09s
#15	GPT-5.2 Chat none	OpenAI	1	6.0	1/2	5.46s
#19	GPT-5.3 Chat none	OpenAI	1	9.0	1/2	3.29s
#20	Gemini 3 Flash Preview none	Google	1	5.5	1/2	1.58s
#25	Claude Sonnet 4.6 none	Anthropic	1	5.5	1/2	1.96s
#37	Qwen3.5-Flash none	Qwen	1	5.0	1/2	8.81s
#38	Gemini 2.5 Flash none	Google	1	9.0	1/2	672ms
#42	Qwen3.5-35B-A3B none	Qwen	1	5.0	1/2	809ms
#44	GPT-5.4 none	OpenAI	1	5.5	1/2	1.07s
#45	Trinity Large Preview none	Arcee AI	1	3.5	0/2	1.09s
#46	Kimi K2.5 none	Moonshot AI	1	5.5	1/2	2.67s
#47	GPT-4o-mini none	OpenAI	1	4.5	0/2	1.27s
#49	GLM 4.7 Flash none	Z.ai	1	5.5	1/2	888ms
#50	Qwen3 Coder Next medium	Qwen	1	4.5	0/2	7.34s
#51	Mercury 2 none	Inception	1	5.5	1/2	551ms
#52	GLM 4.7 Flash medium	Z.ai	1	5.0	1/2	2.97s
#54	MiMo-V2-Flash none	Xiaomi	1	5.5	1/2	857ms

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز