पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

GPT-5.4 Nano 4.1

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#28	Gemini 2.5 Flash medium	Google	7.7	8.2	$0.643	2/3	3.18s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 3.18s
#30	Muse Spark 1.1 high	Meta	7.8	8.1	$1.694	2/3	70.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 70.0s
#31	Gemini 3.5 Flash-Lite high	Google	8.2	8.1	$0.584	2/3	1.85s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 1.85s
#34	GPT-5.2 Chat none	OpenAI	7.7	8.0	$0.604	2/3	4.10s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 4.10s
#38	GPT-5.6 Terra high	OpenAI	7.7	8.0	$1.055	2/3	5.45s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 5.45s
#39	Seed-2.0-Lite medium	Bytedance Seed	9.0	7.9	$0.234	2/3	10.2s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 10.2s
#42	GLM 5.2 medium	Z.ai	8.2	7.8	$0.187	2/3	13.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 13.1s
#43	GPT-5.6 Terra medium	OpenAI	8.4	7.8	$0.676	2/3	3.78s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.676 प्रतिक्रिया समय (औसत) 3.78s
#47	Claude Opus 4.6 medium	Anthropic	7.7	7.7	$3.059	2/3	4.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 4.71s
#48	GPT-5.6 Luna high	OpenAI	7.6	7.7	$1.017	2/3	14.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 14.6s
#49	DeepSeek V4 Flash high	DeepSeek	8.2	7.7	$0.041	2/3	26.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 26.1s
#51	MiniMax M3 medium	Minimax	7.9	7.6	$0.286	2/3	49.9s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 49.9s
#52	Grok Build 0.1 medium	X AI	7.7	7.6	$1.097	2/3	18.3s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 18.3s
#53	GLM 5 Turbo medium	Z.ai	8.7	7.6	$0.323	2/3	5.23s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 5.23s
#54	GPT-5.6 Luna medium	OpenAI	7.8	7.6	$0.352	2/3	4.04s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 4.04s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल