AI BENCHY زمرہ ناکامیاں

اینٹی اے آئی چالیں

ہدایات پر عمل نہیں کیا

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

متعلقہ ناکامی کی وجوہات

غلط جواب53 ہدایات پر عمل نہیں کیا12 اضافی فارمیٹنگ8 ٹائم آؤٹ1 کوئی جواب نہیں1

متعلقہ زمرے

عمومی ذہانت32 پہیلی حل کرنا24 اینٹی اے آئی چالیں12 ہدایات کی پیروی9

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	زمرہ اسکور	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#12	Gemini 3.1 Flash Lite Preview medium	Google	1	9.0	2/3	2.53s
#19	GPT-5.3 Chat none	OpenAI	1	7.3	2/3	4.72s
#22	Gemini 3.1 Flash Lite Preview none	Google	1	6.0	1/3	1.16s
#27	GPT-5.2 medium	OpenAI	1	7.0	2/3	14.3s
#32	GPT-5 Mini medium	OpenAI	1	7.0	2/3	16.5s
#36	Mercury 2 medium	Inception	1	7.3	2/3	1.30s
#39	gpt-oss-120b medium	OpenAI	1	7.0	2/3	19.8s
#43	MiniMax M2.5 medium	Minimax	1	9.3	2/3	32.4s
#48	Qwen3 Coder Next none	Qwen	1	2.3	0/3	4.39s
#50	Qwen3 Coder Next medium	Qwen	1	1.3	0/3	15.3s
#52	GLM 4.7 Flash medium	Z.ai	1	4.0	1/3	27.1s
#53	Grok 4.1 Fast none	X AI	1	1.3	0/3	1.73s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز