पहेली समाधान x गलत उत्तर रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

201

सबसे अधिक प्रभावित मॉडल

Qwen3.5-Flash 3

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

142/142

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#125	Qwen3.5-Flash none	Qwen	3	3.1	$0.073	0/3	10.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 10.9s
#137	North Mini Code medium	Cohere	3	3.3	$0.000	0/3	19.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 19.7s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	3.5	$0.077	0/3	2.47s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 2.47s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.6	$0.048	0/3	1.87s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 1.87s
#155	Kimi K2.5 none	Moonshot AI	3	3.0	$0.127	0/3	4.04s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 4.04s
#160	Laguna XS 2.1 none	Poolside	3	3.0	$0.008	0/3	1.01s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.01s
#166	Qwen3 Coder Next none	Qwen	3	3.0	$0.025	0/3	24.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 24.3s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	3	2.9	$0.067	0/3	1.84s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 1.84s
#189	Mercury 2 none	Inception	3	3.1	$0.030	0/3	535ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 535ms
#203	Grok 4.1 Fast none	X AI	3	3.0	$0.008	0/3	1.10s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.10s
#29	Step 3.7 Flash medium	Stepfun	2	5.7	$0.515	1/3	6.19s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 6.19s
#51	Nemotron 3 Ultra medium	NVIDIA	2	5.5	$0.774	1/3	3.54s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 3.54s
#53	GPT-5.4 Nano medium	OpenAI	2	4.1	$0.138	0/3	3.79s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 3.79s
#60	LongCat 2.0 medium	Meituan	2	5.4	$0.478	1/3	8.84s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 8.84s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	2	6.4	$0.387	1/3	3.11s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 3.11s

1 2 10

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल