पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Step 3.5 Flash 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#83	Gemini 3.5 Flash none	Google	10.0	7.0	$1.079	3/3	3.13s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 3.13s
#146	Nemotron 3 Super medium	NVIDIA	3.0	5.7	$0.055	0/3	3.15s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.055 प्रतिक्रिया समय (औसत) 3.15s
#28	Gemini 2.5 Flash medium	Google	7.7	8.2	$0.643	2/3	3.18s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 3.18s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	3/3	3.20s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 3.20s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	5.9	6.9	$0.467	1/3	3.20s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 3.20s
#118	Claude Sonnet 5 none	Anthropic	6.0	6.3	$0.548	1/3	3.22s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 3.22s
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	3/3	3.23s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 3.23s
#101	GLM 5.2 none	Z.ai	7.7	6.6	$0.128	2/3	3.31s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 3.31s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	8.2	7.2	$0.482	2/3	3.38s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 3.38s
#152	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	3.40s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.40s
#108	Laguna XS 2.1 medium	Poolside	5.3	6.5	$0.068	1/3	3.43s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 3.43s
#5	GPT-5.6 Sol low	OpenAI	8.2	9.5	$0.971	2/3	3.44s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 3.44s
#137	Grok 4.20 Beta medium	X AI	10.0	6.0	$0.750	3/3	3.52s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 3.52s
#55	Nemotron 3 Ultra medium	NVIDIA	5.5	7.5	$0.774	1/3	3.54s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 3.54s
#123	GPT-5.6 Luna low	OpenAI	7.6	6.2	$0.249	2/3	3.59s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 3.59s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल