पहेली समाधान x गलत उत्तर रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

201

सबसे अधिक प्रभावित मॉडल

Qwen3.6 27B 1

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

142/142

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#99	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 61.1s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 56.8s
#47	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 49.9s
#77	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 43.2s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.751 प्रतिक्रिया समय (औसत) 41.0s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 37.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.970 प्रतिक्रिया समय (औसत) 33.7s
#204	Qwen3.5-9B medium	Qwen	1	3.0	$0.036	0/3	32.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 32.3s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 31.8s
#74	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 31.6s
#68	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 25.1s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 24.9s
#171	North Mini Code none	Cohere	1	3.5	$0.000	0/3	24.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 24.4s
#166	Qwen3 Coder Next none	Qwen	3	3.0	$0.025	0/3	24.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 24.3s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 23.7s

1 2 10

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल