کوڈنگ x غلط جواب درجہ بندی

AI BENCHY زمرہ ناکامیاں

دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

230

سب سے زیادہ متاثر ماڈل

Qwen3.6 Flash 3

ناکامی کی وجوہات

غلط جواب230 API خرابی43 ٹائم آؤٹ25 کوئی جواب نہیں18 ہدایات پر عمل نہیں کیا16 اضافی فارمیٹنگ12

زمرے

ڈومین مخصوص368 اینٹی اے آئی چالیں270 کوڈنگ230 پہیلی حل کرنا173 معلومات عامہ150 مشترکہ58 ہدایات کی پیروی56 عمومی ذہانت49 ڈیٹا پارسنگ اور استخراج36 ٹول کالنگ3

134/134

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#121	Qwen3.5-27B none	Qwen	2	5.8	$0.015	1/3	1.80s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 1.80s
#122	GLM 5V Turbo none	Z.ai	2	5.5	$0.052	1/3	3.13s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 3.13s
#129	GPT-5.4 none	OpenAI	2	5.5	$0.122	1/3	1.62s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.122 ردِعمل کا وقت (اوسط) 1.62s
#136	Kimi K2.5 none	Moonshot AI	2	5.5	$0.027	1/3	24.6s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.027 ردِعمل کا وقت (اوسط) 24.6s
#137	MiMo-V2.5-Pro none	Xiaomi	2	4.3	$0.017	0/3	1.41s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 1.41s
#138	Qwen3.6 27B none	Qwen	2	5.5	$0.025	1/3	4.16s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 4.16s
#139	Gemma 4 26B A4B none	Google	2	3.7	$0.004	0/3	4.16s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 4.16s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	2	3.9	$0.032	0/3	1.69s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 1.69s
#144	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.038 ردِعمل کا وقت (اوسط) 913ms
#146	DeepSeek V3.2 none	DeepSeek	2	3.1	$0.016	0/3	14.5s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 14.5s
#148	Qwen3.6 35B A3B none	Qwen	2	5.5	$0.031	1/3	8.77s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.031 ردِعمل کا وقت (اوسط) 8.77s
#154	MiMo-V2.5 none	Xiaomi	2	5.5	$0.006	1/3	3.24s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.006 ردِعمل کا وقت (اوسط) 3.24s
#168	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 924ms
#179	MiMo-V2-Flash none	Xiaomi	2	4.3	$0.025	0/3	2.64s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 2.64s
#2	Gemini 3 Flash Preview medium	Google	1	8.6	$0.667	2/3	84.4s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.667 ردِعمل کا وقت (اوسط) 84.4s

←

1 4 5 6 9

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

کوڈنگ: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز