संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Qwen3.6 35B A3B 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#33	Step 3.7 Flash medium	Stepfun	7.3	8.0	$0.515	1/2	80.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 80.9s
#80	DeepSeek V3.2 medium	DeepSeek	7.3	7.0	$0.078	1/2	79.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 79.9s
#50	DeepSeek V4 Pro high	DeepSeek	10.0	7.7	$0.200	2/2	79.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 79.0s
#159	Hy3 preview low	Tencent	5.0	5.5	$0.015	1/1	78.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 78.7s
#107	MiMo-V2.5 medium	Xiaomi	8.7	6.5	$0.082	1/2	78.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 78.0s
#144	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 77.8s
#119	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 75.7s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	6.5	5.6	$0.077	1/2	74.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 74.5s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3.8	4.8	$0.067	0/2	73.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 73.0s
#178	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	72.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 72.1s
#86	DeepSeek V4 Pro none	DeepSeek	7.9	6.9	$0.096	1/2	71.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 71.6s
#30	Muse Spark 1.1 high	Meta	5.9	8.1	$1.694	0/2	70.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 70.3s
#71	Step 3.7 Flash low	Stepfun	7.3	7.3	$0.454	1/2	66.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 66.2s
#56	Kimi K2.7 Code medium	Moonshot AI	7.3	7.5	$0.740	1/2	66.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 66.0s
#52	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	2/2	65.1s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 65.1s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल