اینٹی اے آئی چالیں x اضافی فارمیٹنگ درجہ بندی

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو اضافی فارمیٹنگ پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Grok Build 0.1 1

ناکامی کی وجوہات

غلط جواب293 ہدایات پر عمل نہیں کیا33 اضافی فارمیٹنگ20 API خرابی14 ٹائم آؤٹ4 کوئی جواب نہیں4

زمرے

اینٹی اے آئی چالیں20 کوڈنگ18 ڈومین مخصوص17 پہیلی حل کرنا8 ڈیٹا پارسنگ اور استخراج6 ہدایات کی پیروی3 مشترکہ1

14/14

درجہ	ماڈل	کمپنی	اضافی فارمیٹنگ کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#48	Grok Build 0.1 medium	X AI	1	8.3	$1.097	3/4	7.43s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.097 ردِعمل کا وقت (اوسط) 7.43s
#58	Qwen3.5-27B medium	Qwen	1	8.7	$1.627	3/4	19.8s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.627 ردِعمل کا وقت (اوسط) 19.8s
#113	MiMo-V2-Flash medium	Xiaomi	1	8.1	$0.043	3/4	15.8s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.043 ردِعمل کا وقت (اوسط) 15.8s
#137	North Mini Code medium	Cohere	1	8.4	$0.000	3/4	64.8s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 64.8s
#40	Claude Sonnet 4.6 medium	Anthropic	1	6.5	$2.057	2/4	2.98s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 2.98s
#43	Claude Opus 4.6 medium	Anthropic	2	6.4	$3.059	2/4	7.45s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $3.059 ردِعمل کا وقت (اوسط) 7.45s
#66	Claude Opus 4.8 none	Anthropic	2	6.5	$1.166	2/4	3.40s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 3.40s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	6.9	$5.599	2/4	3.46s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 3.46s
#63	Claude Sonnet 4.6 none	Anthropic	2	4.8	$0.661	1/4	2.94s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 2.94s
#112	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/4	3.60s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.548 ردِعمل کا وقت (اوسط) 3.60s
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 4.02s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 3.31s
#171	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 22.5s
#173	DeepSeek V3.2 none	DeepSeek	2	3.2	$0.054	0/4	9.35s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 9.35s

ماڈلز فلٹر کریں

اضافی فارمیٹنگ کی تعداد کے لحاظ سے سرفہرست ماڈلز

اضافی فارمیٹنگ کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

اینٹی اے آئی چالیں: اضافی فارمیٹنگ

ماڈلز فلٹر کریں

اضافی فارمیٹنگ کی تعداد کے لحاظ سے سرفہرست ماڈلز

اضافی فارمیٹنگ کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز