ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

421

سب سے زیادہ متاثر ماڈل

Muse Spark 1.1 3

ناکامی کی وجوہات

غلط جواب421 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص421 اینٹی اے آئی چالیں293 کوڈنگ259 پہیلی حل کرنا204 معلومات عامہ172 مشترکہ69 عمومی ذہانت62 ہدایات کی پیروی61 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

202/202

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#112	Gemini 3.1 Flash Lite Preview none	Google	2	5.3	$0.052	1/3	942ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	2	5.3	$0.073	1/3	1.17s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 1.17s
#118	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/3	3.28s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.548 ردِعمل کا وقت (اوسط) 3.28s
#119	MiMo-V2-Flash medium	Xiaomi	2	5.9	$0.043	1/3	96.0s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.043 ردِعمل کا وقت (اوسط) 96.0s
#124	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 495ms
#129	Inkling low	Thinkingmachines	2	5.3	$0.187	1/3	1.99s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 1.99s
#130	Qwen3.6 Flash none	Qwen	2	5.3	$0.062	1/3	1.11s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	5.3	$0.122	1/3	4.43s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.122 ردِعمل کا وقت (اوسط) 4.43s
#135	Nemotron 3 Ultra none	NVIDIA	2	5.3	$0.095	1/3	698ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 698ms
#136	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 170.5s
#137	Grok 4.20 Beta medium	X AI	2	5.3	$0.750	1/3	21.3s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.750 ردِعمل کا وقت (اوسط) 21.3s
#138	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	757ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 757ms
#139	Gemini 3 PRO Preview medium	Google	2	5.3	$0.385	1/3	7.01s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.385 ردِعمل کا وقت (اوسط) 7.01s
#141	Hy3 preview high	Tencent	2	5.3	$0.048	1/3	109.0s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 109.0s
#143	North Mini Code medium	Cohere	2	5.3	$0.000	1/3	71.4s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 71.4s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز