पहेली समाधान मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Qwen3.6 27B 7.7

विफलता के कारण

विफलता कारण गलत उत्तर के साथ147 विफलता कारण निर्देशों का पालन नहीं किया के साथ78 विफलता कारण API त्रुटि के साथ13 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ5 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ1

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#78	Qwen3.6 27B medium	Qwen	7.7	6.8	2/3	61.1s
#30	Qwen3.5-27B medium	Qwen	8.2	7.8	2/3	59.6s
#53	Gemini 3.1 Flash Lite high	Google	5.7	7.3	1/3	50.8s
#67	MiniMax M3 medium	Minimax	7.9	7.1	2/3	49.9s
#12	Gemini 3.1 Flash Lite Preview high	Google	7.7	8.6	2/3	46.7s
#76	Kimi K2.5 medium	Moonshot AI	5.3	6.8	1/3	43.2s
#72	DeepSeek V3.2 medium	DeepSeek	7.0	7.0	1/3	37.7s
#103	DeepSeek V4 Pro high	DeepSeek	5.9	6.0	1/3	34.8s
#66	Qwen3.5-35B-A3B medium	Qwen	8.2	7.1	2/3	33.1s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.9	3/3	32.5s
#161	Qwen3.5-9B medium	Qwen	3.0	4.2	0/3	32.3s
#73	Seed-2.0-Mini medium	Bytedance Seed	8.2	6.9	2/3	31.8s
#55	GLM 5.1 medium	Z.ai	8.2	7.3	2/3	31.6s
#96	Ring-2.6-1T none	Inclusionai	7.7	6.2	2/3	31.5s
#82	Hy3 preview high	Tencent	7.7	6.6	2/3	27.9s

1 2 11

→

पहेली समाधान रैंकिंग

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल