مشترکہ x غلط جواب درجہ بندی

دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

ناکامی کی وجوہات

غیر معتبر ٹول کال91 غلط جواب68 کوئی جواب نہیں29 API خرابی26 ٹائم آؤٹ5 اضافی فارمیٹنگ1 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

63/63

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#164	Inkling none	Thinkingmachines	1	2.9	$0.147	0/2	25.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 25.7s
#166	Qwen3 Coder Next none	Qwen	1	3.0	$0.025	0/2	30.9s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 30.9s
#167	Mistral Small 4 medium	Mistral	1	3.0	$0.096	0/2	32.4s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 32.4s
#168	MiMo-V2.5 none	Xiaomi	1	3.0	$0.025	0/2	28.9s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 28.9s
#170	GLM 5 Turbo none	Z.ai	1	1.5	$0.047	0/1	4.89s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 4.89s
#174	GPT-4o-mini none	OpenAI	1	3.0	$0.010	0/2	6.32s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 6.32s
#180	GPT-5.4 Nano none	OpenAI	1	3.0	$0.041	0/2	14.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 14.7s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	3.8	$0.067	0/2	73.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.067 ردِعمل کا وقت (اوسط) 73.0s
#183	Trinity Large Preview none	Arcee AI	1	1.5	$0.008	0/1	8.91s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 8.91s
#187	Qwen3 Coder Next medium	Qwen	1	3.0	$0.032	0/2	14.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 14.6s
#193	Elephant Alpha none	Openrouter	1	1.5	$0.000	0/1	3.81s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 3.81s
#195	Elephant Alpha medium	Openrouter	1	1.5	$0.000	0/1	3.70s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 3.70s
#196	Hunter Alpha none	OpenRouter	1	1.5	$0.000	0/1	15.2s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 15.2s
#198	Laguna Xs.2 medium	Poolside	1	1.5	$0.015	0/1	15.9s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 15.9s
#199	Hy3 preview none	Tencent	1	1.5	$0.003	0/1	35.8s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 35.8s

←

1 2 3 4 5

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

مشترکہ: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز