ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

421

سب سے زیادہ متاثر ماڈل

Muse Spark 1.1 3

ناکامی کی وجوہات

غلط جواب421 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص421 اینٹی اے آئی چالیں293 کوڈنگ259 پہیلی حل کرنا204 معلومات عامہ172 مشترکہ69 عمومی ذہانت62 ہدایات کی پیروی61 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

202/202

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#144	Kimi K2.6 none	Moonshot AI	2	5.3	$0.184	1/3	1.48s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.184 ردِعمل کا وقت (اوسط) 1.48s
#145	GPT-5.4 none	OpenAI	2	5.3	$0.397	1/3	1.07s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.397 ردِعمل کا وقت (اوسط) 1.07s
#146	Nemotron 3 Super medium	NVIDIA	2	2.9	$0.055	0/3	16.2s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.055 ردِعمل کا وقت (اوسط) 16.2s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.247	1/3	465ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 465ms
#151	GLM 5V Turbo none	Z.ai	2	5.3	$0.052	1/3	2.09s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 2.09s
#152	Owl Alpha medium	Openrouter	2	5.3	$0.000	1/3	8.58s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 8.58s
#153	Mimo V2 PRO none	Xiaomi	2	5.3	$0.045	1/3	1.78s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.045 ردِعمل کا وقت (اوسط) 1.78s
#154	Owl Alpha none	Openrouter	2	5.3	$0.000	1/3	3.00s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 3.00s
#156	DeepSeek V4 Flash none	DeepSeek	2	5.3	$0.042	1/3	19.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.042 ردِعمل کا وقت (اوسط) 19.7s
#159	Hy3 preview low	Tencent	2	5.9	$0.015	1/3	40.4s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 40.4s
#160	MiMo-V2.5-Pro none	Xiaomi	2	5.3	$0.068	1/3	877ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 877ms
#161	Kimi K2.5 none	Moonshot AI	2	5.3	$0.127	1/3	4.38s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.127 ردِعمل کا وقت (اوسط) 4.38s
#163	Mimo V2 Omni none	Xiaomi	2	5.3	$0.021	1/3	2.10s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 2.10s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/3	364ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 364ms
#169	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	1/3	127.6s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $2.310 ردِعمل کا وقت (اوسط) 127.6s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز