کوڈنگ x غلط جواب درجہ بندی

AI BENCHY زمرہ ناکامیاں

دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

230

سب سے زیادہ متاثر ماڈل

Qwen3.6 Flash 3

ناکامی کی وجوہات

غلط جواب230 API خرابی43 ٹائم آؤٹ25 کوئی جواب نہیں18 ہدایات پر عمل نہیں کیا16 اضافی فارمیٹنگ12

زمرے

ڈومین مخصوص368 اینٹی اے آئی چالیں270 کوڈنگ230 پہیلی حل کرنا173 معلومات عامہ150 مشترکہ58 ہدایات کی پیروی56 عمومی ذہانت49 ڈیٹا پارسنگ اور استخراج36 ٹول کالنگ3

134/134

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#8	Gemini 3.5 Flash low	Google	1	7.8	$0.349	2/3	6.71s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.9	$1.054	2/3	40.2s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.054 ردِعمل کا وقت (اوسط) 40.2s
#12	GPT-5.5 medium	OpenAI	1	8.8	$3.679	2/3	59.8s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $3.679 ردِعمل کا وقت (اوسط) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.960 ردِعمل کا وقت (اوسط) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	1	7.6	$0.679	2/3	13.0s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.679 ردِعمل کا وقت (اوسط) 13.0s
#17	GLM 5.2 medium	Z.ai	1	8.2	$0.179	2/3	41.0s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.179 ردِعمل کا وقت (اوسط) 41.0s
#20	GPT-5.4 medium	OpenAI	1	8.8	$1.210	2/3	44.4s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.210 ردِعمل کا وقت (اوسط) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.175 ردِعمل کا وقت (اوسط) 156.7s
#22	GPT-5.2 Chat none	OpenAI	1	8.8	$0.393	2/3	9.82s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.393 ردِعمل کا وقت (اوسط) 9.82s
#23	Step 3.7 Flash medium	Stepfun	1	8.8	$0.376	2/3	27.4s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.376 ردِعمل کا وقت (اوسط) 27.4s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.696 ردِعمل کا وقت (اوسط) 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	1	7.8	$0.027	2/3	50.6s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.027 ردِعمل کا وقت (اوسط) 50.6s
#28	Gemini 2.5 Flash medium	Google	1	7.8	$0.379	2/3	41.0s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.379 ردِعمل کا وقت (اوسط) 41.0s
#29	GPT-5.6 Terra high	OpenAI	1	7.6	$0.852	2/3	9.14s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.852 ردِعمل کا وقت (اوسط) 9.14s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.177 ردِعمل کا وقت (اوسط) 108.6s

←

1 5 6 7 9

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

کوڈنگ: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز