ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

412

سب سے زیادہ متاثر ماڈل

Muse Spark 1.1 3

ناکامی کی وجوہات

غلط جواب412 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

198/198

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#117	GPT-5.6 Luna low	OpenAI	3	3.6	$0.249	0/3	10.0s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 10.0s
#120	Gemini 3.1 Flash Lite minimal	Google	3	2.9	$0.047	0/3	1.02s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 1.02s
#121	gpt-oss-120b medium	OpenAI	3	2.9	$0.019	0/3	50.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 50.9s
#122	Gemini 3.1 Flash Lite none	Google	3	2.9	$0.046	0/3	762ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.046 ردِعمل کا وقت (اوسط) 762ms
#136	GPT-5.4 Mini none	OpenAI	3	3.5	$0.095	0/3	937ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 937ms
#141	GLM 5 none	Z.ai	3	3.0	$0.041	0/3	2.24s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 2.24s
#143	Gemini 3.1 Flash Lite high	Google	3	3.6	$2.044	0/3	139.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $2.044 ردِعمل کا وقت (اوسط) 139.9s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.0	$0.048	0/3	4.87s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 4.87s
#151	GLM 5.1 none	Z.ai	3	2.9	$0.164	0/3	1.99s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.164 ردِعمل کا وقت (اوسط) 1.99s
#156	Gemma 4 26B A4B none	Google	3	3.6	$0.015	0/3	2.49s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 2.49s
#159	GPT-5.6 Luna none	OpenAI	3	2.9	$0.142	0/3	737ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.142 ردِعمل کا وقت (اوسط) 737ms
#161	Qwen3.6 35B A3B none	Qwen	3	3.5	$0.061	0/3	7.45s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.061 ردِعمل کا وقت (اوسط) 7.45s
#162	Ling-2.6-1T none	Inclusionai	3	3.0	$0.016	0/3	1.04s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 1.04s
#168	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 756ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 464ms

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز