पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Muse Spark 1.1 7.8

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#173	Mistral Small 4 medium	Mistral	3.4	5.1	$0.096	0/3	2.17s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 2.17s
#126	Gemini 3.1 Flash Lite minimal	Google	6.0	6.1	$0.047	1/3	2.15s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.15s
#174	MiMo-V2.5 none	Xiaomi	5.4	5.1	$0.025	1/3	2.13s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.13s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.7	6.1	$0.122	1/3	1.97s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.97s
#189	Trinity Large Preview none	Arcee AI	3.6	4.8	$0.008	0/3	1.97s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.97s
#69	Gemini 3.1 Flash Lite medium	Google	7.6	7.3	$0.117	2/3	1.95s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 1.95s
#204	Laguna Xs.2 medium	Poolside	5.3	4.1	$0.015	1/3	1.93s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.93s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	3/3	1.91s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.517 प्रतिक्रिया समय (औसत) 1.91s
#147	GLM 5 none	Z.ai	7.7	5.7	$0.041	2/3	1.91s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.91s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	3.6	5.6	$0.048	0/3	1.87s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 1.87s
#206	MiMo-V2-Flash none	Xiaomi	5.3	4.0	$0.025	1/3	1.86s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.86s
#31	Gemini 3.5 Flash-Lite high	Google	8.2	8.1	$0.584	2/3	1.85s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 1.85s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	1.84s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 1.84s
#71	Step 3.7 Flash low	Stepfun	5.5	7.3	$0.454	1/3	1.84s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 1.84s
#216	LFM2-24B-A2B none	Liquid	3.8	2.2	$0.001	0/3	1.78s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 1.78s

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल