पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Step 3.5 Flash 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#158	Qwen3.6 27B none	Qwen	5.3	5.5	$0.087	1/3	5.15s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 5.15s
#196	MiniMax M2.5 medium	Minimax	5.3	4.6	$0.340	1/3	11.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 11.2s
#90	Step 3.7 Flash high	Stepfun	5.3	6.9	$1.207	1/3	10.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 10.2s
#134	GPT-5 Nano medium	OpenAI	5.3	6.1	$0.114	1/3	20.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 20.6s
#191	Grok 4.1 Fast medium	X AI	5.3	4.7	$0.069	1/3	7.40s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 7.40s
#108	Laguna XS 2.1 medium	Poolside	5.3	6.5	$0.068	1/3	3.43s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 3.43s
#136	Step 3.5 Flash medium	Stepfun	5.3	6.0	$0.108	1/3	7.22s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 7.22s
#138	GPT-5.6 Terra none	OpenAI	5.3	6.0	$0.349	1/3	1.23s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 1.23s
#151	GLM 5V Turbo none	Z.ai	5.3	5.6	$0.052	1/3	2.40s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 2.40s
#159	Hy3 preview low	Tencent	5.3	5.5	$0.015	1/3	7.51s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 7.51s
#165	GPT-5.6 Luna none	OpenAI	5.3	5.4	$0.142	1/3	790ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 790ms
#181	Qwen3.6 Plus Preview medium	Qwen	5.3	4.9	$0.000	1/3	7.52s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 7.52s
#192	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	10.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 10.2s
#201	Elephant Alpha medium	Openrouter	5.3	4.3	$0.000	1/3	868ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 868ms
#203	Grok 4.20 none	X AI	5.3	4.1	$0.057	1/3	473ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 473ms

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल