کوڈنگ x غلط جواب درجہ بندی

AI BENCHY زمرہ ناکامیاں

دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

230

سب سے زیادہ متاثر ماڈل

Qwen3.6 Flash 3

ناکامی کی وجوہات

غلط جواب230 API خرابی43 ٹائم آؤٹ23 کوئی جواب نہیں18 ہدایات پر عمل نہیں کیا16 اضافی فارمیٹنگ12

زمرے

ڈومین مخصوص367 اینٹی اے آئی چالیں270 کوڈنگ230 پہیلی حل کرنا172 معلومات عامہ149 مشترکہ58 ہدایات کی پیروی56 عمومی ذہانت49 ڈیٹا پارسنگ اور استخراج36 ٹول کالنگ3

134/134

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#59	Qwen3.6 Flash medium	Qwen	3	5.0	$0.288	0/3	42.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.288 ردِعمل کا وقت (اوسط) 42.9s
#115	Qwen3.6 Max Preview none	Qwen	3	3.8	$0.075	0/3	3.12s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.075 ردِعمل کا وقت (اوسط) 3.12s
#117	GLM 5 none	Z.ai	3	4.0	$0.027	0/3	5.12s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.027 ردِعمل کا وقت (اوسط) 5.12s
#122	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.3	$0.016	0/3	2.05s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 2.05s
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 320.4s
#131	Claude Sonnet 5 none	Anthropic	3	4.6	$0.287	0/3	3.67s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.287 ردِعمل کا وقت (اوسط) 3.67s
#133	GLM 5.1 none	Z.ai	3	3.9	$0.057	0/3	4.96s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 4.96s
#134	DeepSeek V4 Flash none	DeepSeek	3	4.2	$0.007	0/3	17.1s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 17.1s
#140	GLM 5 Turbo none	Z.ai	3	3.9	$0.047	0/3	2.41s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 2.41s
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 623ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 980ms
#144	Qwen3.5-122B-A10B none	Qwen	3	3.7	$0.020	0/3	2.77s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 2.77s
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 901ms
#149	Qwen3 Coder Next none	Qwen	3	4.6	$0.009	0/3	2.22s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 2.22s
#150	North Mini Code none	Cohere	3	3.9	$0.000	0/3	22.0s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 22.0s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

کوڈنگ: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز