संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Gemini 3 PRO Preview 1.5

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#177	North Mini Code none	Cohere	3.2	5.1	$0.000	0/2	96.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 96.2s
#98	GLM 5V Turbo medium	Z.ai	3.4	6.7	$0.457	0/1	15.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 15.1s
#196	MiniMax M2.5 medium	Minimax	3.7	4.6	$0.340	0/2	83.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 83.2s
#93	Gemini 3 Flash Preview none	Google	3.8	6.8	$0.085	0/2	12.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 12.4s
#104	Gemini 3.5 Flash-Lite medium	Google	3.8	6.5	$0.369	0/2	28.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.369 प्रतिक्रिया समय (औसत) 28.7s
#178	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	72.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 72.1s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3.8	4.8	$0.067	0/2	73.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 73.0s
#121	Gemma 4 31B none	Google	3.8	6.2	$0.021	0/2	30.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 30.0s
#125	Qwen3.5-35B-A3B medium	Qwen	3.8	6.2	$0.837	0/2	512.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.837 प्रतिक्रिया समय (औसत) 512.8s
#130	Qwen3.6 Flash none	Qwen	3.8	6.1	$0.062	0/2	26.5s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 26.5s
#133	Qwen3.5-35B-A3B none	Qwen	3.8	6.1	$0.106	0/2	128.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 128.3s
#167	Qwen3.6 35B A3B none	Qwen	3.8	5.3	$0.061	0/2	39.5s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 39.5s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	4.1	6.7	$0.476	0/2	183.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 183.1s
#156	DeepSeek V4 Flash none	DeepSeek	4.6	5.6	$0.042	0/2	179.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 179.6s
#99	Claude Opus 4.7 none	Anthropic	4.8	6.6	$0.505	1/1	18.3s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.505 प्रतिक्रिया समय (औसत) 18.3s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल