کوڈنگ x غلط جواب درجہ بندی

AI BENCHY زمرہ ناکامیاں

دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

230

سب سے زیادہ متاثر ماڈل

Qwen3.6 Flash 3

ناکامی کی وجوہات

غلط جواب230 API خرابی43 ٹائم آؤٹ23 کوئی جواب نہیں18 ہدایات پر عمل نہیں کیا16 اضافی فارمیٹنگ12

زمرے

ڈومین مخصوص367 اینٹی اے آئی چالیں270 کوڈنگ230 پہیلی حل کرنا172 معلومات عامہ149 مشترکہ58 ہدایات کی پیروی56 عمومی ذہانت49 ڈیٹا پارسنگ اور استخراج36 ٹول کالنگ3

134/134

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#57	GPT-5.3 Chat none	OpenAI	2	5.6	$0.433	1/3	10.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.433 ردِعمل کا وقت (اوسط) 10.5s
#58	GPT-5.4 Nano medium	OpenAI	2	6.1	$0.107	1/3	19.1s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.107 ردِعمل کا وقت (اوسط) 19.1s
#64	Gemini 3 Flash Preview low	Google	2	5.8	$0.111	1/3	6.00s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.111 ردِعمل کا وقت (اوسط) 6.00s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.609 ردِعمل کا وقت (اوسط) 109.9s
#68	GLM 5V Turbo medium	Z.ai	2	6.0	$0.457	1/3	63.4s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 63.4s
#72	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.023 ردِعمل کا وقت (اوسط) 2.15s
#73	GLM 5.2 none	Z.ai	2	3.7	$0.030	0/3	7.55s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 7.55s
#77	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 70.3s
#80	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 1.80s
#81	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 1.35s
#83	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.080 ردِعمل کا وقت (اوسط) 58.9s
#89	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.061 ردِعمل کا وقت (اوسط) 97.1s
#91	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.013 ردِعمل کا وقت (اوسط) 38.4s
#92	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.081 ردِعمل کا وقت (اوسط) 41.6s
#95	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 1.39s

←

1 2 3 4 9

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

کوڈنگ: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز