कोडिंग x अतिरिक्त फॉर्मेटिंग रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि कोडिंग में किन AI मॉडलों में अतिरिक्त फॉर्मेटिंग आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

GLM 5.1 1

विफलता के कारण

गलत उत्तर230 API त्रुटि43 समय समाप्त23 कोई उत्तर नहीं18 निर्देशों का पालन नहीं किया16 अतिरिक्त फॉर्मेटिंग12

श्रेणियाँ

एंटी-एआई ट्रिक्स20 डोमेन-विशिष्ट13 कोडिंग12 पहेली समाधान6 डेटा पार्सिंग और निष्कर्षण4 निर्देश पालन3 संयुक्त1

12/12

रैंक	मॉडल	कंपनी	अतिरिक्त फॉर्मेटिंग संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 109.6s
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 2.75s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 775ms
#38	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.418 प्रतिक्रिया समय (औसत) 33.3s
#45	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.270 प्रतिक्रिया समय (औसत) 7.58s
#46	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.614 प्रतिक्रिया समय (औसत) 41.2s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.053 प्रतिक्रिया समय (औसत) 30.1s
#51	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.131 प्रतिक्रिया समय (औसत) 144.7s
#53	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.927 प्रतिक्रिया समय (औसत) 108.5s
#63	MiMo-V2.5-Pro medium	Xiaomi	1	6.2	$0.106	1/3	92.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 92.1s
#67	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.316 प्रतिक्रिया समय (औसत) 5.19s
#126	Owl Alpha none	Openrouter	1	5.6	$0.000	1/3	36.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 36.9s

मॉडल फ़िल्टर करें

अतिरिक्त फॉर्मेटिंग संख्या के अनुसार शीर्ष मॉडल

अतिरिक्त फॉर्मेटिंग संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

कोडिंग: अतिरिक्त फॉर्मेटिंग

मॉडल फ़िल्टर करें

अतिरिक्त फॉर्मेटिंग संख्या के अनुसार शीर्ष मॉडल

अतिरिक्त फॉर्मेटिंग संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल