کوڈنگ x کوئی جواب نہیں درجہ بندی

AI BENCHY زمرہ ناکامیاں

دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو کوئی جواب نہیں پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Gemma 4 26B A4B 2

ناکامی کی وجوہات

غلط جواب230 API خرابی43 ٹائم آؤٹ23 کوئی جواب نہیں18 ہدایات پر عمل نہیں کیا16 اضافی فارمیٹنگ12

زمرے

کوڈنگ18 معلومات عامہ10 ڈومین مخصوص6 ڈیٹا پارسنگ اور استخراج5 اینٹی اے آئی چالیں4 مشترکہ3 ٹول کالنگ2 پہیلی حل کرنا2 ہدایات کی پیروی2

16/16

درجہ	ماڈل	کمپنی	کوئی جواب نہیں کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#71	Gemma 4 26B A4B medium	Google	2	2.9	$0.045	0/3	272.5s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.045 ردِعمل کا وقت (اوسط) 272.5s
#93	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.070 ردِعمل کا وقت (اوسط) 258.4s
#102	Gemma 4 31B medium	Google	1	4.3	$0.033	0/3	219.8s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 219.8s
#55	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.348 ردِعمل کا وقت (اوسط) 217.5s
#43	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.888 ردِعمل کا وقت (اوسط) 214.4s
#103	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.401 ردِعمل کا وقت (اوسط) 206.6s
#75	Step 3.7 Flash high	Stepfun	2	4.0	$1.148	0/3	206.2s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.148 ردِعمل کا وقت (اوسط) 206.2s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.303 ردِعمل کا وقت (اوسط) 188.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 183.9s
#94	Qwen3.6 27B medium	Qwen	1	7.7	$0.336	2/3	143.0s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.336 ردِعمل کا وقت (اوسط) 143.0s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.288 ردِعمل کا وقت (اوسط) 109.6s
#146	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.100 ردِعمل کا وقت (اوسط) 101.9s
#184	Qwen3.5-9B medium	Qwen	1	2.9	$0.036	0/3	100.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 100.9s
#176	GLM 4.7 Flash medium	Z.ai	1	3.2	$0.054	0/3	55.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 55.3s
#88	Qwen3.6 35B A3B medium	Qwen	1	7.7	$0.146	2/3	50.5s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.146 ردِعمل کا وقت (اوسط) 50.5s

ماڈلز فلٹر کریں

کوئی جواب نہیں کی تعداد کے لحاظ سے سرفہرست ماڈلز

کوئی جواب نہیں کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

کوڈنگ: کوئی جواب نہیں

ماڈلز فلٹر کریں

کوئی جواب نہیں کی تعداد کے لحاظ سے سرفہرست ماڈلز

کوئی جواب نہیں کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز