पहेली समाधान x गलत उत्तर रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

201

सबसे अधिक प्रभावित मॉडल

GPT-5.4 Nano 2

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

142/142

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#53	GPT-5.4 Nano medium	OpenAI	2	4.1	$0.138	0/3	3.79s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 3.79s
#91	LongCat 2.0 low	Meituan	2	3.1	$0.391	0/3	8.15s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 8.15s
#97	LongCat 2.0 high	Meituan	2	3.1	$0.469	0/3	9.18s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 9.18s
#111	LongCat 2.0 none	Meituan	2	4.0	$0.044	0/3	2.74s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 2.74s
#124	Qwen3.6 Flash none	Qwen	2	3.5	$0.062	0/3	1.21s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 1.21s
#125	Qwen3.5-Flash none	Qwen	3	3.1	$0.073	0/3	10.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 10.9s
#127	Qwen3.5-35B-A3B none	Qwen	2	3.7	$0.106	0/3	1.35s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.35s
#137	North Mini Code medium	Cohere	3	3.3	$0.000	0/3	19.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 19.7s
#138	Kimi K2.6 none	Moonshot AI	2	3.1	$0.184	0/3	1.40s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	2	3.0	$0.050	0/3	3.15s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.050 प्रतिक्रिया समय (औसत) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	2	3.8	$0.247	0/3	1.00s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 1.00s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	3.5	$0.077	0/3	2.47s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 2.47s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.6	$0.048	0/3	1.87s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 1.87s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 23.7s
#155	Kimi K2.5 none	Moonshot AI	3	3.0	$0.127	0/3	4.04s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 4.04s

1 2 10

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल