पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#128	Gemini 3.1 Flash Lite none	Google	6.3	6.1	$0.046	1/3	720ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 720ms
#162	Gemma 4 26B A4B none	Google	6.2	5.5	$0.015	1/3	744ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 744ms
#190	Hunter Alpha medium	OpenRouter	6.1	4.7	$0.000	1/3	5.35s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 5.35s
#72	Kimi K2.6 medium	Moonshot AI	6.0	7.2	$1.036	1/3	25.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 25.1s
#118	Claude Sonnet 5 none	Anthropic	6.0	6.3	$0.548	1/3	3.22s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 3.22s
#212	gpt-oss-120b none	OpenAI	6.0	3.7	$0.010	1/3	8.21s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 8.21s
#35	GLM 5.2 high	Z.ai	6.0	8.0	$0.817	1/3	33.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.817 प्रतिक्रिया समय (औसत) 33.7s
#153	Mimo V2 PRO none	Xiaomi	6.0	5.6	$0.045	1/3	1.61s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 1.61s
#126	Gemini 3.1 Flash Lite minimal	Google	6.0	6.1	$0.047	1/3	2.15s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.15s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	5.9	6.9	$0.467	1/3	3.20s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 3.20s
#77	Grok 4.3 medium	X AI	5.9	7.1	$0.779	1/3	22.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 22.5s
#114	Ring-2.6-1T medium	Inclusionai	5.9	6.3	$0.103	1/3	20.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 20.7s
#135	Nemotron 3 Ultra none	NVIDIA	5.9	6.1	$0.095	1/3	1.06s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 1.06s
#140	Mimo V2 Omni medium	Xiaomi	5.9	5.9	$0.683	1/3	2.38s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 2.38s
#178	MiniMax M2.7 medium	Minimax	5.9	5.0	$0.163	1/3	24.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 24.9s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल