पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Step 3.5 Flash 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#136	Step 3.5 Flash medium	Stepfun	5.3	6.0	$0.108	1/3	7.22s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 7.22s
#37	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	3/3	7.36s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 7.36s
#191	Grok 4.1 Fast medium	X AI	5.3	4.7	$0.069	1/3	7.40s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 7.40s
#159	Hy3 preview low	Tencent	5.3	5.5	$0.015	1/3	7.51s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 7.51s
#181	Qwen3.6 Plus Preview medium	Qwen	5.3	4.9	$0.000	1/3	7.52s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 7.52s
#25	Grok 4.5 medium	X AI	10.0	8.3	$1.928	3/3	7.75s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 7.75s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	3/3	7.88s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 7.88s
#96	LongCat 2.0 low	Meituan	3.1	6.7	$0.391	0/3	8.15s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 8.15s
#212	gpt-oss-120b none	OpenAI	6.0	3.7	$0.010	1/3	8.21s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 8.21s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	3/3	8.84s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.116 प्रतिक्रिया समय (औसत) 8.84s
#64	LongCat 2.0 medium	Meituan	5.4	7.4	$0.478	1/3	8.84s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 8.84s
#21	GPT-5.4 medium	OpenAI	8.2	8.5	$1.533	2/3	9.14s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 9.14s
#102	LongCat 2.0 high	Meituan	3.1	6.6	$0.469	0/3	9.18s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 9.18s
#208	Grok Build 0.1 none	X AI	6.4	4.0	$0.547	1/3	9.55s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 9.55s
#192	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	10.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 10.2s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल