ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

412

سب سے زیادہ متاثر ماڈل

LongCat 2.0 1

ناکامی کی وجوہات

غلط جواب412 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

198/198

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/3	400.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 400.3s
#60	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 339.9s
#12	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.707 ردِعمل کا وقت (اوسط) 332.1s
#190	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 237.3s
#128	GPT-5 Nano medium	OpenAI	1	5.2	$0.114	1/3	204.0s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 204.0s
#22	Grok 4.5 medium	X AI	3	2.9	$1.928	0/3	198.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.928 ردِعمل کا وقت (اوسط) 198.9s
#28	Inkling high	Thinkingmachines	1	7.7	$1.006	2/3	186.4s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.006 ردِعمل کا وقت (اوسط) 186.4s
#73	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 181.7s
#194	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 174.6s
#130	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 170.5s
#10	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $4.137 ردِعمل کا وقت (اوسط) 164.1s
#48	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.097 ردِعمل کا وقت (اوسط) 158.0s
#46	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 151.5s
#86	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.207 ردِعمل کا وقت (اوسط) 149.6s
#114	Qwen3.5-Flash medium	Qwen	1	5.3	$0.139	1/3	146.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.139 ردِعمل کا وقت (اوسط) 146.5s

1 2 14

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز