पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Muse Spark 1.1 7.8

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#25	Grok 4.5 medium	X AI	10.0	8.3	$1.928	3/3	7.75s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 7.75s
#181	Qwen3.6 Plus Preview medium	Qwen	5.3	4.9	$0.000	1/3	7.52s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 7.52s
#159	Hy3 preview low	Tencent	5.3	5.5	$0.015	1/3	7.51s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 7.51s
#191	Grok 4.1 Fast medium	X AI	5.3	4.7	$0.069	1/3	7.40s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 7.40s
#37	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	3/3	7.36s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 7.36s
#136	Step 3.5 Flash medium	Stepfun	5.3	6.0	$0.108	1/3	7.22s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 7.22s
#179	DeepSeek V3.2 none	DeepSeek	7.6	5.0	$0.054	2/3	6.91s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 6.91s
#10	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	3/3	6.90s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.361 प्रतिक्रिया समय (औसत) 6.90s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	3/3	6.76s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 6.76s
#27	Muse Spark 1.1 low	Meta	8.3	8.3	$0.647	2/3	6.60s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 6.60s
#184	Ling-2.6-flash none	Inclusionai	2.9	4.9	$0.002	0/3	6.51s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 6.51s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	3/3	6.34s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 6.34s
#89	Qwen3.6 Flash medium	Qwen	8.2	6.9	$0.738	2/3	6.29s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 6.29s
#79	Grok 4.20 medium	X AI	7.7	7.1	$0.777	2/3	6.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 6.22s
#33	Step 3.7 Flash medium	Stepfun	5.7	8.0	$0.515	1/3	6.19s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 6.19s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल