पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

GPT-5.4 Nano 4.1

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#60	GPT-5.4 Mini medium	OpenAI	7.8	7.5	$0.756	2/3	4.37s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 4.37s
#62	Qwen3.5-27B medium	Qwen	8.2	7.4	$1.627	2/3	59.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 59.6s
#67	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	2.53s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 2.53s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.7	7.3	$0.115	2/3	5.30s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 5.30s
#69	Gemini 3.1 Flash Lite medium	Google	7.6	7.3	$0.117	2/3	1.95s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 1.95s
#70	Claude Opus 4.8 none	Anthropic	7.7	7.3	$1.166	2/3	2.74s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 2.74s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	8.2	7.2	$0.482	2/3	3.38s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 3.38s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8.2	7.2	$0.317	2/3	17.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 17.7s
#75	Qwen3.7 Plus none	Qwen	7.7	7.2	$0.106	2/3	1.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.71s
#78	GLM 5.1 medium	Z.ai	8.2	7.1	$0.535	2/3	31.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 31.6s
#79	Grok 4.20 medium	X AI	7.7	7.1	$0.777	2/3	6.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 6.22s
#84	Seed-2.0-Mini medium	Bytedance Seed	8.2	7.0	$0.101	2/3	31.8s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 31.8s
#87	GPT-5.6 Sol none	OpenAI	7.7	6.9	$0.524	2/3	1.49s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.49s
#89	Qwen3.6 Flash medium	Qwen	8.2	6.9	$0.738	2/3	6.29s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 6.29s
#91	GPT-5.5 none	OpenAI	7.7	6.9	$0.544	2/3	1.29s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 1.29s

←

1 9 10 11 15

→

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल