ڈومین مخصوص x اضافی فارمیٹنگ درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو اضافی فارمیٹنگ پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Claude Sonnet 4.6 1

ناکامی کی وجوہات

غلط جواب421 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

اینٹی اے آئی چالیں20 کوڈنگ18 ڈومین مخصوص17 پہیلی حل کرنا8 ڈیٹا پارسنگ اور استخراج6 ہدایات کی پیروی3 مشترکہ1

13/13

درجہ	ماڈل	کمپنی	اضافی فارمیٹنگ کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#44	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 0ms
#47	Claude Opus 4.6 medium	Anthropic	2	3.0	$3.059	0/3	83.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $3.059 ردِعمل کا وقت (اوسط) 83.4s
#50	DeepSeek V4 Pro high	DeepSeek	1	3.6	$0.200	0/3	151.5s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 151.5s
#140	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/3	47.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 47.9s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	2	2.9	$0.077	0/3	7.47s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.077 ردِعمل کا وقت (اوسط) 7.47s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	2.9	$0.041	0/3	4.99s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 4.99s
#187	Grok 4.20 Multi Agent Beta medium	X AI	1	2.9	$5.599	0/3	24.7s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 24.7s
#190	Hunter Alpha medium	OpenRouter	1	3.0	$0.000	0/3	10.5s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 10.5s
#203	Grok 4.20 none	X AI	1	3.0	$0.057	0/3	687ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 687ms
#52	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.097 ردِعمل کا وقت (اوسط) 158.0s
#79	Grok 4.20 medium	X AI	1	5.3	$0.777	1/3	27.0s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.777 ردِعمل کا وقت (اوسط) 27.0s
#88	MiMo-V2.5-Pro medium	Xiaomi	2	5.3	$0.187	1/3	37.9s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 37.9s
#107	MiMo-V2.5 medium	Xiaomi	1	5.3	$0.082	1/3	34.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.082 ردِعمل کا وقت (اوسط) 34.5s

ماڈلز فلٹر کریں

اضافی فارمیٹنگ کی تعداد کے لحاظ سے سرفہرست ماڈلز

اضافی فارمیٹنگ کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: اضافی فارمیٹنگ

ماڈلز فلٹر کریں

اضافی فارمیٹنگ کی تعداد کے لحاظ سے سرفہرست ماڈلز

اضافی فارمیٹنگ کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز