اینٹی اے آئی چالیں x غلط جواب درجہ بندی

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

293

سب سے زیادہ متاثر ماڈل

Seed-2.0-Lite 4

ناکامی کی وجوہات

غلط جواب293 ہدایات پر عمل نہیں کیا33 اضافی فارمیٹنگ20 API خرابی14 ٹائم آؤٹ4 کوئی جواب نہیں4

زمرے

ڈومین مخصوص421 اینٹی اے آئی چالیں293 کوڈنگ259 پہیلی حل کرنا204 معلومات عامہ172 مشترکہ69 عمومی ذہانت62 ہدایات کی پیروی61 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

140/140

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	5.3	$0.067	1/4	2.68s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.067 ردِعمل کا وقت (اوسط) 2.68s
#193	Qwen3 Coder Next medium	Qwen	3	3.5	$0.032	0/4	8.64s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 8.64s
#198	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 705ms
#203	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 501ms
#209	Grok 4.1 Fast none	X AI	3	3.2	$0.008	0/4	1.07s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.07s
#216	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 471ms
#27	Muse Spark 1.1 low	Meta	2	7.9	$0.647	2/4	4.36s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 4.36s
#50	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 25.7s
#51	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/4	14.9s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.286 ردِعمل کا وقت (اوسط) 14.9s
#56	Kimi K2.7 Code medium	Moonshot AI	2	7.3	$0.740	2/4	11.6s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.740 ردِعمل کا وقت (اوسط) 11.6s
#63	Qwen3.7 Max none	Qwen	2	6.5	$0.197	2/4	1.08s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.197 ردِعمل کا وقت (اوسط) 1.08s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	2	6.9	$0.387	2/4	4.20s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.387 ردِعمل کا وقت (اوسط) 4.20s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	2	7.0	$0.482	2/4	3.17s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.482 ردِعمل کا وقت (اوسط) 3.17s
#75	Qwen3.7 Plus none	Qwen	2	6.5	$0.106	2/4	1.38s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 1.38s
#86	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 4.02s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

اینٹی اے آئی چالیں: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز