पहेली समाधान मॉडल रैंकिंग

देखें कि पहेली समाधान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत पहेली समाधान स्कोर

6.7

सर्वश्रेष्ठ मॉडल

Step 3.5 Flash 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ204 विफलता कारण निर्देशों का पालन नहीं किया के साथ90 विफलता कारण API त्रुटि के साथ12 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ8 विफलता कारण समय समाप्त के साथ5 विफलता कारण कोई उत्तर नहीं के साथ3

216/216

रैंक	मॉडल	कंपनी	पहेली समाधान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#168	Ling-2.6-1T none	Inclusionai	3.1	5.3	$0.016	0/3	5.36s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 5.36s
#38	GPT-5.6 Terra high	OpenAI	7.7	8.0	$1.055	2/3	5.45s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 5.45s
#65	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	3/3	5.77s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 5.77s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	3/3	5.79s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.089 प्रतिक्रिया समय (औसत) 5.79s
#24	GPT-5.2 medium	OpenAI	7.5	8.4	$0.951	2/3	5.80s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 5.80s
#94	Qwen3.6 35B A3B medium	Qwen	8.0	6.7	$0.746	2/3	5.95s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 5.95s
#33	Step 3.7 Flash medium	Stepfun	5.7	8.0	$0.515	1/3	6.19s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 6.19s
#79	Grok 4.20 medium	X AI	7.7	7.1	$0.777	2/3	6.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 6.22s
#89	Qwen3.6 Flash medium	Qwen	8.2	6.9	$0.738	2/3	6.29s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 6.29s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	3/3	6.34s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 6.34s
#184	Ling-2.6-flash none	Inclusionai	2.9	4.9	$0.002	0/3	6.51s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 6.51s
#27	Muse Spark 1.1 low	Meta	8.3	8.3	$0.647	2/3	6.60s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 6.60s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	3/3	6.76s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 6.76s
#10	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	3/3	6.90s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.361 प्रतिक्रिया समय (औसत) 6.90s
#179	DeepSeek V3.2 none	DeepSeek	7.6	5.0	$0.054	2/3	6.91s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 6.91s

←

1 9 10 11 15

→

पहेली समाधान रैंकिंग

मॉडल फ़िल्टर करें

पहेली समाधान स्कोर के अनुसार शीर्ष मॉडल

पहेली समाधान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल