पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

GPT-5.4 Nano 4.1

विफलता के कारण

विफलता कारण गलत उत्तर के साथ201 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

210/210

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#53	GPT-5.4 Nano medium	OpenAI	4.1	7.5	$0.138	0/3	3.79s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 3.79s
#91	LongCat 2.0 low	Meituan	3.1	6.7	$0.391	0/3	8.15s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 8.15s
#97	LongCat 2.0 high	Meituan	3.1	6.6	$0.469	0/3	9.18s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 9.18s
#111	LongCat 2.0 none	Meituan	4.0	6.3	$0.044	0/3	2.74s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 2.74s
#124	Qwen3.6 Flash none	Qwen	3.5	6.1	$0.062	0/3	1.21s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 1.21s
#125	Qwen3.5-Flash none	Qwen	3.1	6.1	$0.073	0/3	10.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 10.9s
#127	Qwen3.5-35B-A3B none	Qwen	3.7	6.1	$0.106	0/3	1.35s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.35s
#137	North Mini Code medium	Cohere	3.3	5.9	$0.000	0/3	19.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 19.7s
#138	Kimi K2.6 none	Moonshot AI	3.1	5.8	$0.184	0/3	1.40s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	3.0	5.7	$0.050	0/3	3.15s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.050 प्रतिक्रिया समय (औसत) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	3.8	5.7	$0.247	0/3	1.00s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 1.00s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3.5	5.6	$0.077	0/3	2.47s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 2.47s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3.6	5.6	$0.048	0/3	1.87s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 1.87s
#150	DeepSeek V4 Flash none	DeepSeek	3.1	5.6	$0.044	0/3	23.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 23.7s
#155	Kimi K2.5 none	Moonshot AI	3.0	5.5	$0.127	0/3	4.04s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 4.04s

1 2 14

→

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल