ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

412

سب سے زیادہ متاثر ماڈل

Muse Spark 1.1 3

ناکامی کی وجوہات

غلط جواب412 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

198/198

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	3	2.9	$0.317	0/3	53.1s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.317 ردِعمل کا وقت (اوسط) 53.1s
#71	Qwen3.7 Plus none	Qwen	3	3.0	$0.106	0/3	868ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 868ms
#72	Qwen3.5-122B-A10B medium	Qwen	3	2.9	$1.046	0/3	63.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.046 ردِعمل کا وقت (اوسط) 63.4s
#78	Mercury 2 medium	Inception	3	2.9	$0.093	0/3	6.48s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	3	2.9	$0.467	0/3	29.0s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.467 ردِعمل کا وقت (اوسط) 29.0s
#83	GPT-5.6 Sol none	OpenAI	3	3.6	$0.524	0/3	1.43s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.524 ردِعمل کا وقت (اوسط) 1.43s
#85	Qwen3.6 Flash medium	Qwen	3	3.5	$0.738	0/3	14.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.738 ردِعمل کا وقت (اوسط) 14.6s
#87	GPT-5.5 none	OpenAI	3	2.9	$0.544	0/3	1.31s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.544 ردِعمل کا وقت (اوسط) 1.31s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	3	3.6	$0.476	0/3	21.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.476 ردِعمل کا وقت (اوسط) 21.6s
#99	Qwen3.6 27B medium	Qwen	3	2.9	$0.779	0/3	73.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 73.4s
#102	Laguna XS 2.1 medium	Poolside	3	2.9	$0.068	0/3	65.7s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 65.7s
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.090 ردِعمل کا وقت (اوسط) 540ms
#108	Ring-2.6-1T medium	Inclusionai	3	3.5	$0.103	0/3	64.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 64.9s
#111	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 1.72s
#116	Seed-2.0-Lite none	Bytedance Seed	3	3.6	$0.066	0/3	1.33s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.066 ردِعمل کا وقت (اوسط) 1.33s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز