संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Qwen3.6 35B A3B 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#109	Qwen3.5-27B none	Qwen	6.4	6.5	$0.090	1/2	39.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 39.4s
#191	Grok 4.1 Fast medium	X AI	5.0	4.7	$0.069	1/1	37.6s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 37.6s
#67	Claude Sonnet 4.6 none	Anthropic	9.8	7.3	$0.661	2/2	37.5s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 37.5s
#63	Qwen3.7 Max none	Qwen	6.5	7.4	$0.197	1/2	37.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.197 प्रतिक्रिया समय (औसत) 37.2s
#162	Gemma 4 26B A4B none	Google	3.0	5.5	$0.015	0/2	37.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 37.2s
#45	Claude Opus 4.8 low	Anthropic	9.9	7.8	$2.077	2/2	36.9s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $2.077 प्रतिक्रिया समय (औसत) 36.9s
#205	Hy3 preview none	Tencent	1.5	4.0	$0.003	0/1	35.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 35.8s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/2	35.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 35.7s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	2/2	35.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 35.6s
#181	Qwen3.6 Plus Preview medium	Qwen	5.0	4.9	$0.000	1/1	35.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 35.0s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	33.5s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 33.5s
#173	Mistral Small 4 medium	Mistral	3.0	5.1	$0.096	0/2	32.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 32.4s
#57	GPT-5.4 Nano medium	OpenAI	9.9	7.5	$0.138	2/2	32.2s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 32.2s
#118	Claude Sonnet 5 none	Anthropic	6.5	6.3	$0.548	1/2	31.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 31.4s
#172	Qwen3 Coder Next none	Qwen	3.0	5.1	$0.025	0/2	30.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 30.9s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल