पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#43	GPT-5.6 Terra medium	OpenAI	8.4	7.8	$0.676	2/3	3.78s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.676 प्रतिक्रिया समय (औसत) 3.78s
#47	Claude Opus 4.6 medium	Anthropic	7.7	7.7	$3.059	2/3	4.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 4.71s
#48	GPT-5.6 Luna high	OpenAI	7.6	7.7	$1.017	2/3	14.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 14.6s
#49	DeepSeek V4 Flash high	DeepSeek	8.2	7.7	$0.041	2/3	26.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 26.1s
#51	MiniMax M3 medium	Minimax	7.9	7.6	$0.286	2/3	49.9s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 49.9s
#52	Grok Build 0.1 medium	X AI	7.7	7.6	$1.097	2/3	18.3s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 18.3s
#53	GLM 5 Turbo medium	Z.ai	8.7	7.6	$0.323	2/3	5.23s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 5.23s
#54	GPT-5.6 Luna medium	OpenAI	7.8	7.6	$0.352	2/3	4.04s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 4.04s
#60	GPT-5.4 Mini medium	OpenAI	7.8	7.5	$0.756	2/3	4.37s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 4.37s
#62	Qwen3.5-27B medium	Qwen	8.2	7.4	$1.627	2/3	59.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 59.6s
#67	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	2.53s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 2.53s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.7	7.3	$0.115	2/3	5.30s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 5.30s
#69	Gemini 3.1 Flash Lite medium	Google	7.6	7.3	$0.117	2/3	1.95s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 1.95s
#70	Claude Opus 4.8 none	Anthropic	7.7	7.3	$1.166	2/3	2.74s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 2.74s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	8.2	7.2	$0.482	2/3	3.38s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 3.38s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल