संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Qwen3.6 35B A3B 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ68 विफलता कारण कोई उत्तर नहीं के साथ29 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#163	Gemini 3.1 Flash Lite Preview high	Google	5.0	5.3	$2.310	1/1	280.5s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 280.5s
#114	Qwen3.5-Flash medium	Qwen	6.4	6.2	$0.139	1/2	266.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 266.6s
#140	Nemotron 3 Super medium	NVIDIA	6.4	5.7	$0.050	1/2	259.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.050 प्रतिक्रिया समय (औसत) 259.9s
#108	Ring-2.6-1T medium	Inclusionai	7.3	6.3	$0.103	1/2	257.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 257.3s
#125	Qwen3.5-Flash none	Qwen	2.9	6.1	$0.073	0/2	243.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 243.6s
#33	Kimi K3 max	Moonshot AI	6.5	8.0	$3.112	1/2	223.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 223.0s
#51	Nemotron 3 Ultra medium	NVIDIA	6.3	7.5	$0.774	1/2	218.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 218.2s
#102	Laguna XS 2.1 medium	Poolside	6.3	6.5	$0.068	1/2	218.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 218.1s
#169	Qwen3.5-9B none	Qwen	3.0	5.1	$0.021	0/2	194.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 194.0s
#36	Qwen3.7 Plus medium	Qwen	8.2	7.9	$0.267	1/2	190.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.267 प्रतिक्रिया समय (औसत) 190.3s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	4.1	6.7	$0.476	0/2	183.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 183.1s
#150	DeepSeek V4 Flash none	DeepSeek	4.6	5.6	$0.044	0/2	179.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 179.6s
#19	Qwen3.6 Max Preview medium	Qwen	7.3	8.4	$1.143	1/2	177.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.143 प्रतिक्रिया समय (औसत) 177.5s
#74	GLM 5.1 medium	Z.ai	9.8	7.1	$0.535	2/2	175.9s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 175.9s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.9	7.5	$0.437	1/2	175.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.437 प्रतिक्रिया समय (औसत) 175.8s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल