पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8.2	7.2	$0.317	2/3	17.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 17.7s
#75	Qwen3.7 Plus none	Qwen	7.7	7.2	$0.106	2/3	1.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.71s
#78	GLM 5.1 medium	Z.ai	8.2	7.1	$0.535	2/3	31.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 31.6s
#79	Grok 4.20 medium	X AI	7.7	7.1	$0.777	2/3	6.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 6.22s
#84	Seed-2.0-Mini medium	Bytedance Seed	8.2	7.0	$0.101	2/3	31.8s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 31.8s
#87	GPT-5.6 Sol none	OpenAI	7.7	6.9	$0.524	2/3	1.49s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.49s
#89	Qwen3.6 Flash medium	Qwen	8.2	6.9	$0.738	2/3	6.29s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 6.29s
#91	GPT-5.5 none	OpenAI	7.7	6.9	$0.544	2/3	1.29s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 1.29s
#93	Gemini 3 Flash Preview none	Google	7.7	6.8	$0.085	2/3	1.05s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 1.05s
#94	Qwen3.6 35B A3B medium	Qwen	8.0	6.7	$0.746	2/3	5.95s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 5.95s
#95	Gemini 3.5 Flash-Lite low	Google	7.8	6.7	$0.145	2/3	1.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.145 प्रतिक्रिया समय (औसत) 1.22s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	8.2	6.7	$0.476	2/3	3.03s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 3.03s
#98	GLM 5V Turbo medium	Z.ai	7.7	6.7	$0.457	2/3	10.2s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 10.2s
#101	GLM 5.2 none	Z.ai	7.7	6.6	$0.128	2/3	3.31s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 3.31s
#104	Gemini 3.5 Flash-Lite medium	Google	8.4	6.5	$0.369	2/3	1.70s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.369 प्रतिक्रिया समय (औसत) 1.70s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल