पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Step 3.5 Flash 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#72	Kimi K2.6 medium	Moonshot AI	6.0	7.2	$1.036	1/3	25.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 25.1s
#118	Claude Sonnet 5 none	Anthropic	6.0	6.3	$0.548	1/3	3.22s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 3.22s
#212	gpt-oss-120b none	OpenAI	6.0	3.7	$0.010	1/3	8.21s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 8.21s
#190	Hunter Alpha medium	OpenRouter	6.1	4.7	$0.000	1/3	5.35s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 5.35s
#162	Gemma 4 26B A4B none	Google	6.2	5.5	$0.015	1/3	744ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 744ms
#128	Gemini 3.1 Flash Lite none	Google	6.3	6.1	$0.046	1/3	720ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 720ms
#208	Grok Build 0.1 none	X AI	6.4	4.0	$0.547	1/3	9.55s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 9.55s
#129	Inkling low	Thinkingmachines	6.4	6.1	$0.187	1/3	2.97s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 2.97s
#182	GLM 4.7 Flash none	Z.ai	6.4	4.9	$0.016	1/3	1.20s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 1.20s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/3	3.11s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 3.11s
#115	Mimo V2 PRO medium	Xiaomi	6.4	6.3	$0.333	1/3	5.08s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 5.08s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/3	4.23s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 4.23s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.7	6.9	$0.187	1/3	5.31s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 5.31s
#109	Qwen3.5-27B none	Qwen	6.7	6.5	$0.090	1/3	1.38s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 1.38s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.7	6.1	$0.122	1/3	1.97s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.97s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल