पहेली समाधान x गलत उत्तर रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

204

सबसे अधिक प्रभावित मॉडल

Qwen3.5-Flash 3

विफलता के कारण

गलत उत्तर204 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

डोमेन-विशिष्ट421 एंटी-एआई ट्रिक्स293 कोडिंग259 पहेली समाधान204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 निर्देश पालन61 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

145/145

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#101	GLM 5.2 none	Z.ai	1	7.7	$0.128	2/3	3.31s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 3.31s
#104	Gemini 3.5 Flash-Lite medium	Google	1	8.4	$0.369	2/3	1.70s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.369 प्रतिक्रिया समय (औसत) 1.70s
#105	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 61.1s
#109	Qwen3.5-27B none	Qwen	1	6.7	$0.090	1/3	1.38s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 1.38s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	1	7.7	$0.073	2/3	2.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 2.71s
#114	Ring-2.6-1T medium	Inclusionai	1	5.9	$0.103	1/3	20.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 20.7s
#118	Claude Sonnet 5 none	Anthropic	1	6.0	$0.548	1/3	3.22s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 3.22s
#119	MiMo-V2-Flash medium	Xiaomi	1	7.7	$0.043	2/3	3.87s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 3.87s
#121	Gemma 4 31B none	Google	1	6.5	$0.021	1/3	4.23s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 4.23s
#123	GPT-5.6 Luna low	OpenAI	1	7.6	$0.249	2/3	3.59s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 3.59s
#124	Gemini 2.5 Flash none	Google	1	7.7	$0.017	2/3	604ms
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 604ms
#127	gpt-oss-120b medium	OpenAI	1	5.3	$0.019	1/3	21.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 21.7s
#128	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 720ms
#129	Inkling low	Thinkingmachines	1	6.4	$0.187	1/3	2.97s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 2.97s
#134	GPT-5 Nano medium	OpenAI	1	5.3	$0.114	1/3	20.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 20.6s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल