مشترکہ x غلط جواب درجہ بندی

دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Qwen3.5-Flash 1

ناکامی کی وجوہات

غیر معتبر ٹول کال91 غلط جواب68 کوئی جواب نہیں29 API خرابی26 ٹائم آؤٹ5 اضافی فارمیٹنگ1 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

63/63

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 243.6s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.476 ردِعمل کا وقت (اوسط) 183.1s
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 161.2s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.646 ردِعمل کا وقت (اوسط) 160.6s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.2	$0.247	0/2	129.3s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 129.3s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.8	$0.106	0/2	128.3s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 128.3s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.4	$0.122	1/2	109.7s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.122 ردِعمل کا وقت (اوسط) 109.7s
#138	Kimi K2.6 none	Moonshot AI	1	3.0	$0.184	0/2	77.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.184 ردِعمل کا وقت (اوسط) 77.8s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	3.8	$0.067	0/2	73.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.067 ردِعمل کا وقت (اوسط) 73.0s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.3	$0.751	1/2	66.0s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.751 ردِعمل کا وقت (اوسط) 66.0s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.5	$0.073	1/2	64.8s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 64.8s
#109	Mimo V2 PRO medium	Xiaomi	1	2.3	$0.333	0/1	64.7s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.333 ردِعمل کا وقت (اوسط) 64.7s
#98	Qwen3.6 Max Preview none	Qwen	1	6.5	$0.231	1/2	61.6s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.231 ردِعمل کا وقت (اوسط) 61.6s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 61.2s
#155	Kimi K2.5 none	Moonshot AI	1	2.8	$0.127	0/2	61.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.127 ردِعمل کا وقت (اوسط) 61.0s

1 2 3 4 5

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

مشترکہ: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز