पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Step 3.5 Flash 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#67	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	2.53s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 2.53s
#103	Qwen3.6 Max Preview none	Qwen	10.0	6.6	$0.231	3/3	2.65s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 2.65s
#176	GLM 5 Turbo none	Z.ai	5.5	5.1	$0.047	1/3	2.65s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.65s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	7.7	6.4	$0.073	2/3	2.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 2.71s
#117	LongCat 2.0 none	Meituan	4.0	6.3	$0.044	0/3	2.74s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 2.74s
#70	Claude Opus 4.8 none	Anthropic	7.7	7.3	$1.166	2/3	2.74s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 2.74s
#122	Seed-2.0-Lite none	Bytedance Seed	5.3	6.2	$0.066	1/3	2.78s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 2.78s
#129	Inkling low	Thinkingmachines	6.4	6.1	$0.187	1/3	2.97s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 2.97s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 2.98s
#7	GPT-5.6 Sol medium	OpenAI	8.2	9.4	$1.316	2/3	2.98s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 2.98s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	3/3	2.99s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 2.99s
#45	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	3/3	3.01s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $2.077 प्रतिक्रिया समय (औसत) 3.01s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	8.2	6.7	$0.476	2/3	3.03s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 3.03s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	3/3	3.04s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 3.04s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/3	3.11s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 3.11s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल