पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	8.2	6.7	$0.476	2/3	3.03s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 3.03s
#107	MiMo-V2.5 medium	Xiaomi	8.2	6.5	$0.082	2/3	20.3s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 20.3s
#120	Qwen3.5-Flash medium	Qwen	8.2	6.2	$0.139	2/3	27.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 27.6s
#125	Qwen3.5-35B-A3B medium	Qwen	8.2	6.2	$0.837	2/3	33.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.837 प्रतिक्रिया समय (औसत) 33.1s
#62	Qwen3.5-27B medium	Qwen	8.2	7.4	$1.627	2/3	59.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 59.6s
#94	Qwen3.6 35B A3B medium	Qwen	8.0	6.7	$0.746	2/3	5.95s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 5.95s
#19	Muse Spark 1.1 medium	Meta	7.9	8.6	$1.357	2/3	42.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 42.5s
#51	MiniMax M3 medium	Minimax	7.9	7.6	$0.286	2/3	49.9s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 49.9s
#30	Muse Spark 1.1 high	Meta	7.8	8.1	$1.694	2/3	70.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 70.0s
#54	GPT-5.6 Luna medium	OpenAI	7.8	7.6	$0.352	2/3	4.04s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 4.04s
#60	GPT-5.4 Mini medium	OpenAI	7.8	7.5	$0.756	2/3	4.37s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 4.37s
#95	Gemini 3.5 Flash-Lite low	Google	7.8	6.7	$0.145	2/3	1.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.145 प्रतिक्रिया समय (औसत) 1.22s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 2.38s
#20	Claude Fable 5 medium	Anthropic	7.7	8.6	$3.478	2/3	5.18s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 5.18s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 2.98s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल