کوڈنگ x غلط جواب درجہ بندی

AI BENCHY زمرہ ناکامیاں

دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

230

سب سے زیادہ متاثر ماڈل

Qwen3.6 Flash 3

ناکامی کی وجوہات

غلط جواب230 API خرابی43 ٹائم آؤٹ25 کوئی جواب نہیں18 ہدایات پر عمل نہیں کیا16 اضافی فارمیٹنگ12

زمرے

ڈومین مخصوص368 اینٹی اے آئی چالیں270 کوڈنگ230 پہیلی حل کرنا173 معلومات عامہ150 مشترکہ58 ہدایات کی پیروی56 عمومی ذہانت49 ڈیٹا پارسنگ اور استخراج36 ٹول کالنگ3

134/134

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#98	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 967ms
#99	Gemini 3.1 Flash Lite low	Google	2	5.5	$0.028	1/3	1.53s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.028 ردِعمل کا وقت (اوسط) 1.53s
#102	GPT-5.6 Sol none	OpenAI	2	5.5	$0.225	1/3	1.39s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.225 ردِعمل کا وقت (اوسط) 1.39s
#105	GPT-5.5 none	OpenAI	2	5.5	$0.231	1/3	1.35s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.231 ردِعمل کا وقت (اوسط) 1.35s
#107	Seed-2.0-Lite none	Bytedance Seed	2	5.6	$0.019	1/3	2.83s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 2.83s
#108	GPT-5.6 Luna low	OpenAI	2	5.5	$0.141	1/3	4.61s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.141 ردِعمل کا وقت (اوسط) 4.61s
#109	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 736ms
#110	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.013 ردِعمل کا وقت (اوسط) 831ms
#112	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.013 ردِعمل کا وقت (اوسط) 938ms
#113	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.005 ردِعمل کا وقت (اوسط) 850ms
#114	Gemma 4 31B none	Google	2	5.5	$0.004	1/3	11.2s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.027 ردِعمل کا وقت (اوسط) 1.02s
#117	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.130 ردِعمل کا وقت (اوسط) 1.00s
#119	Qwen3.6 Flash none	Qwen	2	5.4	$0.015	1/3	1.79s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 1.79s
#120	Qwen3.5-35B-A3B none	Qwen	2	5.5	$0.012	1/3	1.39s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.012 ردِعمل کا وقت (اوسط) 1.39s

←

1 3 4 5 9

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

کوڈنگ: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز