संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ96 विफलता कारण गलत उत्तर के साथ71 विफलता कारण कोई उत्तर नहीं के साथ33 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

220/220

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	7.3	7.2	$0.482	1/2	106.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 106.7s
#80	DeepSeek V3.2 medium	DeepSeek	7.3	7.0	$0.078	1/2	79.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 79.9s
#84	Seed-2.0-Mini medium	Bytedance Seed	7.3	7.0	$0.101	1/2	282.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 282.3s
#114	Ring-2.6-1T medium	Inclusionai	7.3	6.3	$0.103	1/2	257.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 257.3s
#26	Claude Sonnet 5 medium	Anthropic	7.3	8.3	$0.922	1/2	51.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 51.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.2	7.3	$0.115	1/2	16.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 16.6s
#69	Gemini 3.1 Flash Lite medium	Google	7.2	7.3	$0.117	1/2	18.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 18.5s
#60	GPT-5.4 Mini medium	OpenAI	6.9	7.5	$0.756	1/2	59.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 59.6s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.9	7.5	$0.437	1/2	175.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.437 प्रतिक्रिया समय (औसत) 175.8s
#72	Kimi K2.6 medium	Moonshot AI	6.9	7.2	$1.036	1/2	458.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 458.6s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.9	6.9	$0.187	1/2	125.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 125.4s
#101	GLM 5.2 none	Z.ai	6.9	6.6	$0.124	1/2	50.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.124 प्रतिक्रिया समय (औसत) 50.2s
#81	Kimi K2.5 medium	Moonshot AI	6.7	7.0	$0.600	1/2	89.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 89.2s
#82	Mercury 2 medium	Inception	6.7	7.0	$0.093	1/2	7.84s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 7.84s
#105	Qwen3.6 27B medium	Qwen	6.7	6.5	$0.779	0/2	584.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 584.1s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल