संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Qwen3.6 35B A3B 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#179	DeepSeek V3.2 none	DeepSeek	4.8	5.0	$0.054	0/2	113.5s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 113.5s
#141	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 113.1s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/2	111.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 111.9s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.4	6.1	$0.122	1/2	109.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 109.7s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	7.3	7.2	$0.482	1/2	106.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 106.7s
#49	DeepSeek V4 Flash high	DeepSeek	6.4	7.7	$0.041	1/2	104.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 104.1s
#29	GPT-5 Mini medium	OpenAI	7.3	8.1	$0.237	1/2	99.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 99.8s
#177	North Mini Code none	Cohere	3.2	5.1	$0.000	0/2	96.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 96.2s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	93.7s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $2.057 प्रतिक्रिया समय (औसत) 93.7s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.5	7.2	$0.317	1/2	92.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 92.4s
#81	Kimi K2.5 medium	Moonshot AI	6.7	7.0	$0.600	1/2	89.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 89.2s
#28	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.643	2/2	84.5s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 84.5s
#4	Gemini 3.5 Flash high	Google	8.2	9.5	$1.976	1/2	84.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 84.1s
#196	MiniMax M2.5 medium	Minimax	3.7	4.6	$0.340	0/2	83.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 83.2s
#158	Qwen3.6 27B none	Qwen	3.2	5.5	$0.087	0/2	83.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 83.1s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल