पहेली समाधान x अतिरिक्त फॉर्मेटिंग रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में अतिरिक्त फॉर्मेटिंग आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Claude Sonnet 4.6 1

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

एंटी-एआई ट्रिक्स20 कोडिंग18 डोमेन-विशिष्ट17 पहेली समाधान8 डेटा पार्सिंग और निष्कर्षण6 निर्देश पालन3 संयुक्त1

8/8

रैंक	मॉडल	कंपनी	अतिरिक्त फॉर्मेटिंग संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#63	Claude Sonnet 4.6 none	Anthropic	1	7.7	$0.661	2/3	2.53s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 2.53s
#66	Claude Opus 4.8 none	Anthropic	1	7.7	$1.166	2/3	2.74s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 2.74s
#109	Mimo V2 PRO medium	Xiaomi	1	6.4	$0.333	1/3	5.08s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 5.08s
#112	Claude Sonnet 5 none	Anthropic	1	6.0	$0.548	1/3	3.22s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 3.22s
#159	GPT-5.6 Luna none	OpenAI	1	5.3	$0.142	1/3	790ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 790ms
#164	Inkling none	Thinkingmachines	1	5.6	$0.147	1/3	931ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 931ms
#111	LongCat 2.0 none	Meituan	1	4.0	$0.044	0/3	2.74s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 2.74s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 23.7s

मॉडल फ़िल्टर करें

अतिरिक्त फॉर्मेटिंग संख्या के अनुसार शीर्ष मॉडल

अतिरिक्त फॉर्मेटिंग संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: अतिरिक्त फॉर्मेटिंग

मॉडल फ़िल्टर करें

अतिरिक्त फॉर्मेटिंग संख्या के अनुसार शीर्ष मॉडल

अतिरिक्त फॉर्मेटिंग संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल