AI BENCHY زمرہ ناکامیاں

اینٹی اے آئی چالیں

غلط جواب

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

متعلقہ ناکامی کی وجوہات

غلط جواب53 ہدایات پر عمل نہیں کیا12 اضافی فارمیٹنگ8 ٹائم آؤٹ1 کوئی جواب نہیں1

متعلقہ زمرے

ڈومین مخصوص98 پہیلی حل کرنا55 اینٹی اے آئی چالیں53 ہدایات کی پیروی26 مشترکہ21 ڈیٹا پارسنگ اور استخراج14 عمومی ذہانت6 ٹول کالنگ2

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#37	Qwen3.5-Flash none	Qwen	3	2.3	0/3	1.62s
#38	Gemini 2.5 Flash none	Google	3	10.0	0/3	668ms
#42	Qwen3.5-35B-A3B none	Qwen	3	10.0	0/3	1.76s
#44	GPT-5.4 none	OpenAI	3	10.0	0/3	1.41s
#45	Trinity Large Preview none	Arcee AI	3	10.0	0/3	3.59s
#46	Kimi K2.5 none	Moonshot AI	3	2.7	0/3	11.4s
#49	GLM 4.7 Flash none	Z.ai	3	10.0	0/3	6.59s
#51	Mercury 2 none	Inception	3	10.0	0/3	466ms
#54	MiMo-V2-Flash none	Xiaomi	3	10.0	0/3	1.36s
#55	LFM2-24B-A2B none	Liquid	3	10.0	0/3	471ms
#29	Qwen3.5 Plus 2026-02-15 none	Qwen	2	4.0	1/3	2.74s
#31	GLM 5 none	Z.ai	2	4.0	1/3	3.39s
#40	Qwen3.5-122B-A10B none	Qwen	2	4.0	1/3	927ms
#41	Qwen3.5-27B none	Qwen	2	4.0	1/3	796ms
#47	GPT-4o-mini none	OpenAI	2	4.0	1/3	1.83s
#50	Qwen3 Coder Next medium	Qwen	2	1.3	0/3	15.3s
#53	Grok 4.1 Fast none	X AI	2	1.3	0/3	1.73s
#16	Gemini 2.5 Flash medium	Google	1	7.3	2/3	6.98s
#17	Gemini 3.1 Flash Lite Preview low	Google	1	7.0	2/3	2.18s
#18	DeepSeek V3.2 medium	DeepSeek	1	7.0	2/3	33.4s
#20	Gemini 3 Flash Preview none	Google	1	7.0	2/3	1.59s
#22	Gemini 3.1 Flash Lite Preview none	Google	1	6.0	1/3	1.16s
#33	DeepSeek V3.2 none	DeepSeek	1	10.0	0/3	8.79s
#34	GPT-5 Nano medium	OpenAI	1	7.0	2/3	37.7s
#48	Qwen3 Coder Next none	Qwen	1	2.3	0/3	4.39s
#52	GLM 4.7 Flash medium	Z.ai	1	4.0	1/3	27.1s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز