अतिरिक्त फॉर्मेटिंग विफलता रैंकिंग

देखें कि किन AI मॉडलों में अतिरिक्त फॉर्मेटिंग सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

श्रेणियाँ

एंटी-एआई ट्रिक्स श्रेणी में20 कोडिंग श्रेणी में18 डोमेन-विशिष्ट श्रेणी में17 पहेली समाधान श्रेणी में7 डेटा पार्सिंग और निष्कर्षण श्रेणी में6 निर्देश पालन श्रेणी में3 संयुक्त श्रेणी में1

41/41

रैंक	मॉडल	कंपनी	अतिरिक्त फॉर्मेटिंग संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#43	Claude Opus 4.6 medium	Anthropic	5	7.7	$3.059	13/22	34.3s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 34.3s
#62	Claude Sonnet 4.6 none	Anthropic	4	7.3	$0.661	12/22	8.12s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 8.12s
#108	Claude Sonnet 5 none	Anthropic	4	6.3	$0.548	8/22	6.04s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 6.04s
#154	KAT-Coder-Air V2.5 low	Kwaipilot	4	5.4	$0.041	7/22	10.1s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 10.1s
#40	Claude Sonnet 4.6 medium	Anthropic	3	7.8	$2.057	14/22	25.9s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $2.057 प्रतिक्रिया समय (औसत) 25.9s
#48	Grok Build 0.1 medium	X AI	3	7.6	$1.097	14/22	52.1s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 52.1s
#65	Claude Opus 4.8 none	Anthropic	3	7.3	$1.166	13/22	4.91s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 4.91s
#83	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 33.9s
#140	KAT-Coder-Air V2.5 high	Kwaipilot	3	5.6	$0.077	7/22	15.9s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 15.9s
#178	KAT-Coder-Air V2.5 none	Kwaipilot	3	4.8	$0.067	5/22	12.2s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 12.2s
#98	MiMo-V2.5 medium	Xiaomi	2	6.5	$0.082	12/22	32.2s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 32.2s
#133	North Mini Code medium	Cohere	2	5.9	$0.000	9/22	137.1s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 137.1s
#146	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 36.8s
#167	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 29.9s
#169	DeepSeek V3.2 none	DeepSeek	2	5.0	$0.054	6/22	18.3s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 18.3s

अतिरिक्त फॉर्मेटिंग विफलताएँ

मॉडल फ़िल्टर करें

अतिरिक्त फॉर्मेटिंग संख्या के अनुसार शीर्ष मॉडल

अतिरिक्त फॉर्मेटिंग संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल