पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#28	Gemini 2.5 Flash medium	Google	7.7	8.2	$0.643	2/3	3.18s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 3.18s
#34	GPT-5.2 Chat none	OpenAI	7.7	8.0	$0.604	2/3	4.10s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 4.10s
#38	GPT-5.6 Terra high	OpenAI	7.7	8.0	$1.055	2/3	5.45s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 5.45s
#47	Claude Opus 4.6 medium	Anthropic	7.7	7.7	$3.059	2/3	4.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 4.71s
#52	Grok Build 0.1 medium	X AI	7.7	7.6	$1.097	2/3	18.3s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 18.3s
#67	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	2.53s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 2.53s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.7	7.3	$0.115	2/3	5.30s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 5.30s
#70	Claude Opus 4.8 none	Anthropic	7.7	7.3	$1.166	2/3	2.74s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 2.74s
#75	Qwen3.7 Plus none	Qwen	7.7	7.2	$0.106	2/3	1.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.71s
#79	Grok 4.20 medium	X AI	7.7	7.1	$0.777	2/3	6.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 6.22s
#87	GPT-5.6 Sol none	OpenAI	7.7	6.9	$0.524	2/3	1.49s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.49s
#91	GPT-5.5 none	OpenAI	7.7	6.9	$0.544	2/3	1.29s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 1.29s
#93	Gemini 3 Flash Preview none	Google	7.7	6.8	$0.085	2/3	1.05s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 1.05s
#98	GLM 5V Turbo medium	Z.ai	7.7	6.7	$0.457	2/3	10.2s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 10.2s
#101	GLM 5.2 none	Z.ai	7.7	6.6	$0.128	2/3	3.31s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 3.31s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल