पहेली समाधान x गलत उत्तर रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

204

सबसे अधिक प्रभावित मॉडल

Qwen3.5-Flash 3

विफलता के कारण

गलत उत्तर204 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

डोमेन-विशिष्ट421 एंटी-एआई ट्रिक्स293 कोडिंग259 पहेली समाधान204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 निर्देश पालन61 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

145/145

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#77	Grok 4.3 medium	X AI	1	5.9	$0.779	1/3	22.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 22.5s
#78	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 31.6s
#79	Grok 4.20 medium	X AI	1	7.7	$0.777	2/3	6.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 6.22s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 37.7s
#81	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 43.2s
#82	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 949ms
#84	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 31.8s
#87	GPT-5.6 Sol none	OpenAI	1	7.7	$0.524	2/3	1.49s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.49s
#88	MiMo-V2.5-Pro medium	Xiaomi	1	6.7	$0.187	1/3	5.31s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 5.31s
#91	GPT-5.5 none	OpenAI	1	7.7	$0.544	2/3	1.29s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 1.29s
#93	Gemini 3 Flash Preview none	Google	1	7.7	$0.085	2/3	1.05s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 1.05s
#94	Qwen3.6 35B A3B medium	Qwen	1	8.0	$0.746	2/3	5.95s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 5.95s
#95	Gemini 3.5 Flash-Lite low	Google	1	7.8	$0.145	2/3	1.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.145 प्रतिक्रिया समय (औसत) 1.22s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	1	8.2	$0.476	2/3	3.03s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 3.03s
#98	GLM 5V Turbo medium	Z.ai	1	7.7	$0.457	2/3	10.2s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 10.2s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल