संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Muse Spark 1.1 5.9

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#183	Nemotron 3 Super none	NVIDIA	3.0	4.9	$0.008	0/2	18.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 18.2s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/2	35.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 35.7s
#185	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/2	0ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 0ms
#186	GPT-5.4 Nano none	OpenAI	3.0	4.8	$0.041	0/2	14.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 14.7s
#187	Grok 4.20 Multi Agent Beta medium	X AI	1.5	4.8	$5.599	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 0ms
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3.8	4.8	$0.067	0/2	73.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 73.0s
#189	Trinity Large Preview none	Arcee AI	1.5	4.8	$0.008	0/1	8.91s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 8.91s
#190	Hunter Alpha medium	OpenRouter	2.3	4.7	$0.000	0/1	30.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 30.5s
#192	Laguna M.1 medium	Poolside	1.5	4.7	$0.033	0/1	53.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 53.1s
#193	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.032	0/2	14.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 14.6s
#194	Cobuddy medium	Baidu	1.5	4.7	$0.000	0/1	47.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 47.4s
#195	Mercury 2 none	Inception	3.0	4.6	$0.030	0/2	2.56s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 2.56s
#196	MiniMax M2.5 medium	Minimax	3.7	4.6	$0.340	0/2	83.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 83.2s
#197	Grok 4.20 Beta none	X AI	1.5	4.4	$0.087	0/1	6.48s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 6.48s
#198	Laguna M.1 none	Poolside	1.5	4.4	$0.009	0/1	4.32s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 4.32s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल