اضافی فارمیٹنگ ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں اضافی فارمیٹنگ سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Kimi K3 1

زمرے

زمرہ اینٹی اے آئی چالیں میں20 زمرہ کوڈنگ میں18 زمرہ ڈومین مخصوص میں17 زمرہ پہیلی حل کرنا میں8 زمرہ ڈیٹا پارسنگ اور استخراج میں6 زمرہ ہدایات کی پیروی میں3 زمرہ مشترکہ میں1

42/42

درجہ	ماڈل	کمپنی	اضافی فارمیٹنگ کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#33	Kimi K3 max	Moonshot AI	1	8.0	$3.112	16/22	122.5s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $3.112 ردِعمل کا وقت (اوسط) 122.5s
#41	Claude Opus 4.8 low	Anthropic	1	7.8	$2.077	16/22	12.7s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $2.077 ردِعمل کا وقت (اوسط) 12.7s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 79.1s
#47	MiniMax M3 medium	Minimax	1	7.6	$0.286	12/22	75.0s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.286 ردِعمل کا وقت (اوسط) 75.0s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $1.627 ردِعمل کا وقت (اوسط) 111.9s
#73	Grok 4.3 medium	X AI	1	7.1	$0.779	13/22	47.4s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 47.4s
#74	GLM 5.1 medium	Z.ai	1	7.1	$0.535	13/22	46.8s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.535 ردِعمل کا وقت (اوسط) 46.8s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.777 ردِعمل کا وقت (اوسط) 29.5s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 11.6s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
کل ٹیسٹس 21 غلط ٹیسٹس 9 کل لاگت $0.333 ردِعمل کا وقت (اوسط) 22.2s
#111	LongCat 2.0 none	Meituan	1	6.3	$0.044	7/22	5.18s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 5.18s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
کل ٹیسٹس 21 غلط ٹیسٹس 9 کل لاگت $0.043 ردِعمل کا وقت (اوسط) 20.1s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	10/21	41.2s
کل ٹیسٹس 21 غلط ٹیسٹس 11 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 41.2s
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
کل ٹیسٹس 21 غلط ٹیسٹس 14 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 9.88s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 8.42s

اضافی فارمیٹنگ ناکامیاں

ماڈلز فلٹر کریں

اضافی فارمیٹنگ کی تعداد کے لحاظ سے سرفہرست ماڈلز

اضافی فارمیٹنگ کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز