पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 2.38s
#16	GPT-5.3-Codex medium	OpenAI	9.0	8.9	$0.920	2/3	5.05s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 5.05s
#19	Muse Spark 1.1 medium	Meta	7.9	8.6	$1.357	2/3	42.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 42.5s
#20	Claude Fable 5 medium	Anthropic	7.7	8.6	$3.478	2/3	5.18s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 5.18s
#21	GPT-5.4 medium	OpenAI	8.2	8.5	$1.533	2/3	9.14s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 9.14s
#24	GPT-5.2 medium	OpenAI	7.5	8.4	$0.951	2/3	5.80s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 5.80s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 2.98s
#27	Muse Spark 1.1 low	Meta	8.3	8.3	$0.647	2/3	6.60s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 6.60s
#28	Gemini 2.5 Flash medium	Google	7.7	8.2	$0.643	2/3	3.18s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 3.18s
#30	Muse Spark 1.1 high	Meta	7.8	8.1	$1.694	2/3	70.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 70.0s
#31	Gemini 3.5 Flash-Lite high	Google	8.2	8.1	$0.584	2/3	1.85s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 1.85s
#34	GPT-5.2 Chat none	OpenAI	7.7	8.0	$0.604	2/3	4.10s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 4.10s
#38	GPT-5.6 Terra high	OpenAI	7.7	8.0	$1.055	2/3	5.45s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 5.45s
#39	Seed-2.0-Lite medium	Bytedance Seed	9.0	7.9	$0.234	2/3	10.2s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 10.2s
#42	GLM 5.2 medium	Z.ai	8.2	7.8	$0.187	2/3	13.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 13.1s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल