पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Step 3.5 Flash 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#59	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	3/3	4.46s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 4.46s
#205	Hy3 preview none	Tencent	3.1	4.0	$0.003	0/3	4.56s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 4.56s
#47	Claude Opus 4.6 medium	Anthropic	7.7	7.7	$3.059	2/3	4.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 4.71s
#9	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	3/3	4.74s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 4.74s
#16	GPT-5.3-Codex medium	OpenAI	9.0	8.9	$0.920	2/3	5.05s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 5.05s
#115	Mimo V2 PRO medium	Xiaomi	6.4	6.3	$0.333	1/3	5.08s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 5.08s
#158	Qwen3.6 27B none	Qwen	5.3	5.5	$0.087	1/3	5.15s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 5.15s
#36	Inkling medium	Thinkingmachines	10.0	8.0	$0.391	3/3	5.18s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 5.18s
#20	Claude Fable 5 medium	Anthropic	7.7	8.6	$3.478	2/3	5.18s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 5.18s
#187	Grok 4.20 Multi Agent Beta medium	X AI	6.7	4.8	$5.599	1/3	5.19s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 5.19s
#53	GLM 5 Turbo medium	Z.ai	8.7	7.6	$0.323	2/3	5.23s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 5.23s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.7	7.3	$0.115	2/3	5.30s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 5.30s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	3/3	5.31s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $2.057 प्रतिक्रिया समय (औसत) 5.31s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.7	6.9	$0.187	1/3	5.31s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 5.31s
#190	Hunter Alpha medium	OpenRouter	6.1	4.7	$0.000	1/3	5.35s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 5.35s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल