مشترکہ x غلط جواب درجہ بندی

دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

ناکامی کی وجوہات

غیر معتبر ٹول کال91 غلط جواب68 کوئی جواب نہیں29 API خرابی26 ٹائم آؤٹ5 اضافی فارمیٹنگ1 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

63/63

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 161.2s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.052	0/2	6.23s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 6.23s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.5	$0.073	1/2	64.8s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 64.8s
#109	Mimo V2 PRO medium	Xiaomi	1	2.3	$0.333	0/1	64.7s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.333 ردِعمل کا وقت (اوسط) 64.7s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	28.4s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 28.4s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.035 ردِعمل کا وقت (اوسط) 30.0s
#116	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.066	0/2	25.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.066 ردِعمل کا وقت (اوسط) 25.6s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 13.7s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 61.2s
#120	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.047	0/2	7.75s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.046	0/2	9.49s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.046 ردِعمل کا وقت (اوسط) 9.49s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 243.6s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.4	$0.122	1/2	109.7s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.122 ردِعمل کا وقت (اوسط) 109.7s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.8	$0.106	0/2	128.3s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 128.3s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 21.1s

←

1 2 3 4 5

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

مشترکہ: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز