पहेली समाधान x गलत उत्तर रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

201

सबसे अधिक प्रभावित मॉडल

Qwen3.5-Flash 3

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

142/142

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	3.1	$0.041	0/3	1.57s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.57s
#162	Ling-2.6-1T none	Inclusionai	2	3.1	$0.016	0/3	5.36s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 5.36s
#165	Mistral Small 4 none	Mistral	2	3.1	$0.022	0/3	399ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 399ms
#167	Mistral Small 4 medium	Mistral	2	3.4	$0.096	0/3	2.17s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 2.17s
#169	Qwen3.5-9B none	Qwen	2	3.2	$0.021	0/3	621ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 621ms
#174	GPT-4o-mini none	OpenAI	2	3.5	$0.010	0/3	1.21s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 1.21s
#178	Ling-2.6-flash none	Inclusionai	2	2.9	$0.002	0/3	6.51s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 6.51s
#183	Trinity Large Preview none	Arcee AI	2	3.6	$0.008	0/3	1.97s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.97s
#187	Qwen3 Coder Next medium	Qwen	2	3.0	$0.032	0/3	1.25s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 1.25s
#188	Cobuddy medium	Baidu	2	3.6	$0.000	0/3	12.8s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 12.8s
#192	Laguna M.1 none	Poolside	2	3.0	$0.009	0/3	891ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 891ms
#193	Elephant Alpha none	Openrouter	2	4.2	$0.000	0/3	807ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 807ms
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/3	12.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 12.9s
#197	Grok 4.20 none	X AI	2	5.3	$0.057	1/3	473ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 473ms
#199	Hy3 preview none	Tencent	2	3.1	$0.003	0/3	4.56s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 4.56s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल