पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#24	GPT-5.2 medium	OpenAI	7.5	8.4	$0.951	2/3	5.80s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 5.80s
#80	DeepSeek V3.2 medium	DeepSeek	7.0	7.0	$0.078	1/3	37.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 37.7s
#32	Inkling high	Thinkingmachines	6.9	8.0	$1.006	1/3	10.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 10.7s
#50	DeepSeek V4 Pro high	DeepSeek	6.9	7.7	$0.200	1/3	56.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 56.8s
#160	MiMo-V2.5-Pro none	Xiaomi	6.7	5.5	$0.068	1/3	1.30s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 1.30s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.7	6.9	$0.187	1/3	5.31s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 5.31s
#109	Qwen3.5-27B none	Qwen	6.7	6.5	$0.090	1/3	1.38s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 1.38s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.7	6.1	$0.122	1/3	1.97s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.97s
#187	Grok 4.20 Multi Agent Beta medium	X AI	6.7	4.8	$5.599	1/3	5.19s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 5.19s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/3	4.23s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 4.23s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/3	3.11s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 3.11s
#115	Mimo V2 PRO medium	Xiaomi	6.4	6.3	$0.333	1/3	5.08s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 5.08s
#182	GLM 4.7 Flash none	Z.ai	6.4	4.9	$0.016	1/3	1.20s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 1.20s
#129	Inkling low	Thinkingmachines	6.4	6.1	$0.187	1/3	2.97s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 2.97s
#208	Grok Build 0.1 none	X AI	6.4	4.0	$0.547	1/3	9.55s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 9.55s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल