पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

GPT-5.4 Nano 4.1

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#204	Laguna Xs.2 medium	Poolside	5.3	4.1	$0.015	1/3	1.93s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.93s
#206	MiMo-V2-Flash none	Xiaomi	5.3	4.0	$0.025	1/3	1.86s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.86s
#208	Grok Build 0.1 none	X AI	6.4	4.0	$0.547	1/3	9.55s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 9.55s
#211	Laguna Xs.2 none	Poolside	5.3	3.8	$0.004	1/3	650ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 650ms
#212	gpt-oss-120b none	OpenAI	6.0	3.7	$0.010	1/3	8.21s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 8.21s
#5	GPT-5.6 Sol low	OpenAI	8.2	9.5	$0.971	2/3	3.44s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 3.44s
#7	GPT-5.6 Sol medium	OpenAI	8.2	9.4	$1.316	2/3	2.98s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 2.98s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 2.38s
#16	GPT-5.3-Codex medium	OpenAI	9.0	8.9	$0.920	2/3	5.05s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 5.05s
#19	Muse Spark 1.1 medium	Meta	7.9	8.6	$1.357	2/3	42.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 42.5s
#20	Claude Fable 5 medium	Anthropic	7.7	8.6	$3.478	2/3	5.18s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 5.18s
#21	GPT-5.4 medium	OpenAI	8.2	8.5	$1.533	2/3	9.14s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 9.14s
#24	GPT-5.2 medium	OpenAI	7.5	8.4	$0.951	2/3	5.80s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 5.80s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 2.98s
#27	Muse Spark 1.1 low	Meta	8.3	8.3	$0.647	2/3	6.60s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 6.60s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल