डोमेन-विशिष्ट x अतिरिक्त फॉर्मेटिंग रैंकिंग

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में अतिरिक्त फॉर्मेटिंग आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Claude Sonnet 4.6 1

विफलता के कारण

गलत उत्तर412 समय समाप्त43 अतिरिक्त फॉर्मेटिंग17 कोई उत्तर नहीं8 API त्रुटि7 निर्देशों का पालन नहीं किया1

श्रेणियाँ

एंटी-एआई ट्रिक्स20 कोडिंग18 डोमेन-विशिष्ट17 पहेली समाधान8 डेटा पार्सिंग और निष्कर्षण6 निर्देश पालन3 संयुक्त1

13/13

रैंक	मॉडल	कंपनी	अतिरिक्त फॉर्मेटिंग संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $2.057 प्रतिक्रिया समय (औसत) 0ms
#43	Claude Opus 4.6 medium	Anthropic	2	3.0	$3.059	0/3	83.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 83.4s
#46	DeepSeek V4 Pro high	DeepSeek	1	3.6	$0.200	0/3	151.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 151.5s
#134	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/3	47.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 47.9s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	2	2.9	$0.077	0/3	7.47s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 7.47s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	2.9	$0.041	0/3	4.99s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 4.99s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	2.9	$5.599	0/3	24.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 24.7s
#184	Hunter Alpha medium	OpenRouter	1	3.0	$0.000	0/3	10.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 10.5s
#197	Grok 4.20 none	X AI	1	3.0	$0.057	0/3	687ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 687ms
#48	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 158.0s
#75	Grok 4.20 medium	X AI	1	5.3	$0.777	1/3	27.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 27.0s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	5.3	$0.187	1/3	37.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 37.9s
#101	MiMo-V2.5 medium	Xiaomi	1	5.3	$0.082	1/3	34.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 34.5s

मॉडल फ़िल्टर करें

अतिरिक्त फॉर्मेटिंग संख्या के अनुसार शीर्ष मॉडल

अतिरिक्त फॉर्मेटिंग संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट: अतिरिक्त फॉर्मेटिंग

मॉडल फ़िल्टर करें

अतिरिक्त फॉर्मेटिंग संख्या के अनुसार शीर्ष मॉडल

अतिरिक्त फॉर्मेटिंग संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल