पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Step 3.5 Flash 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#204	Laguna Xs.2 medium	Poolside	5.3	4.1	$0.015	1/3	1.93s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.93s
#206	MiMo-V2-Flash none	Xiaomi	5.3	4.0	$0.025	1/3	1.86s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.86s
#211	Laguna Xs.2 none	Poolside	5.3	3.8	$0.004	1/3	650ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 650ms
#81	Kimi K2.5 medium	Moonshot AI	5.3	7.0	$0.600	1/3	43.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 43.2s
#154	Owl Alpha none	Openrouter	5.4	5.6	$0.000	1/3	4.18s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.18s
#64	LongCat 2.0 medium	Meituan	5.4	7.4	$0.478	1/3	8.84s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 8.84s
#82	Mercury 2 medium	Inception	5.4	7.0	$0.093	1/3	949ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 949ms
#142	GPT-5.4 Mini none	OpenAI	5.4	5.9	$0.095	1/3	836ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 836ms
#174	MiMo-V2.5 none	Xiaomi	5.4	5.1	$0.025	1/3	2.13s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.13s
#186	GPT-5.4 Nano none	OpenAI	5.4	4.8	$0.041	1/3	1.25s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.25s
#55	Nemotron 3 Ultra medium	NVIDIA	5.5	7.5	$0.774	1/3	3.54s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 3.54s
#176	GLM 5 Turbo none	Z.ai	5.5	5.1	$0.047	1/3	2.65s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.65s
#183	Nemotron 3 Super none	NVIDIA	5.5	4.9	$0.008	1/3	2.36s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 2.36s
#71	Step 3.7 Flash low	Stepfun	5.5	7.3	$0.454	1/3	1.84s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 1.84s
#145	GPT-5.4 none	OpenAI	5.6	5.8	$0.397	1/3	1.44s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 1.44s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल