کوڈنگ x غلط جواب درجہ بندی

AI BENCHY زمرہ ناکامیاں

دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

230

سب سے زیادہ متاثر ماڈل

North Mini Code 3

ناکامی کی وجوہات

غلط جواب230 API خرابی43 ٹائم آؤٹ23 کوئی جواب نہیں18 ہدایات پر عمل نہیں کیا16 اضافی فارمیٹنگ12

زمرے

ڈومین مخصوص367 اینٹی اے آئی چالیں270 کوڈنگ230 پہیلی حل کرنا172 معلومات عامہ149 مشترکہ58 ہدایات کی پیروی56 عمومی ذہانت49 ڈیٹا پارسنگ اور استخراج36 ٹول کالنگ3

134/134

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 320.4s
#60	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.044	1/3	248.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 248.7s
#62	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 220.5s
#75	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.148 ردِعمل کا وقت (اوسط) 206.2s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.303 ردِعمل کا وقت (اوسط) 188.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 183.9s
#33	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.310 ردِعمل کا وقت (اوسط) 180.7s
#34	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.536 ردِعمل کا وقت (اوسط) 160.7s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.175 ردِعمل کا وقت (اوسط) 156.7s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.696 ردِعمل کا وقت (اوسط) 155.7s
#36	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.294 ردِعمل کا وقت (اوسط) 153.1s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.960 ردِعمل کا وقت (اوسط) 146.5s
#41	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.317 ردِعمل کا وقت (اوسط) 125.3s
#44	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.588 ردِعمل کا وقت (اوسط) 114.5s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.609 ردِعمل کا وقت (اوسط) 109.9s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

کوڈنگ: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز