पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Step 3.5 Flash 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ201 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

210/210

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#158	KAT-Coder-Air V2.5 low	Kwaipilot	3.1	5.4	$0.041	0/3	1.57s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.57s
#91	LongCat 2.0 low	Meituan	3.1	6.7	$0.391	0/3	8.15s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 8.15s
#125	Qwen3.5-Flash none	Qwen	3.1	6.1	$0.073	0/3	10.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 10.9s
#162	Ling-2.6-1T none	Inclusionai	3.1	5.3	$0.016	0/3	5.36s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 5.36s
#189	Mercury 2 none	Inception	3.1	4.6	$0.030	0/3	535ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 535ms
#199	Hy3 preview none	Tencent	3.1	4.0	$0.003	0/3	4.56s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 4.56s
#138	Kimi K2.6 none	Moonshot AI	3.1	5.8	$0.184	0/3	1.40s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 1.40s
#165	Mistral Small 4 none	Mistral	3.1	5.1	$0.022	0/3	399ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 399ms
#97	LongCat 2.0 high	Meituan	3.1	6.6	$0.469	0/3	9.18s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 9.18s
#169	Qwen3.5-9B none	Qwen	3.2	5.1	$0.021	0/3	621ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 621ms
#201	Granite 4.1 8B none	IBM Granite	3.2	4.0	$0.007	0/3	608ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 608ms
#161	Qwen3.6 35B A3B none	Qwen	3.2	5.3	$0.061	0/3	1.07s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 1.07s
#137	North Mini Code medium	Cohere	3.3	5.9	$0.000	0/3	19.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 19.7s
#167	Mistral Small 4 medium	Mistral	3.4	5.1	$0.096	0/3	2.17s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 2.17s
#124	Qwen3.6 Flash none	Qwen	3.5	6.1	$0.062	0/3	1.21s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 1.21s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल