पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Muse Spark 1.1 7.8

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#118	Claude Sonnet 5 none	Anthropic	6.0	6.3	$0.548	1/3	3.22s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 3.22s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	5.9	6.9	$0.467	1/3	3.20s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 3.20s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	3/3	3.20s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 3.20s
#28	Gemini 2.5 Flash medium	Google	7.7	8.2	$0.643	2/3	3.18s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 3.18s
#146	Nemotron 3 Super medium	NVIDIA	3.0	5.7	$0.055	0/3	3.15s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.055 प्रतिक्रिया समय (औसत) 3.15s
#83	Gemini 3.5 Flash none	Google	10.0	7.0	$1.079	3/3	3.13s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 3.13s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/3	3.11s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 3.11s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	3/3	3.04s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 3.04s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	8.2	6.7	$0.476	2/3	3.03s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 3.03s
#45	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	3/3	3.01s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $2.077 प्रतिक्रिया समय (औसत) 3.01s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	3/3	2.99s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 2.99s
#7	GPT-5.6 Sol medium	OpenAI	8.2	9.4	$1.316	2/3	2.98s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 2.98s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 2.98s
#129	Inkling low	Thinkingmachines	6.4	6.1	$0.187	1/3	2.97s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 2.97s
#122	Seed-2.0-Lite none	Bytedance Seed	5.3	6.2	$0.066	1/3	2.78s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 2.78s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल