संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#161	Kimi K2.5 none	Moonshot AI	2.8	5.5	$0.127	0/2	61.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 61.0s
#124	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 61.2s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 61.6s
#32	Inkling high	Thinkingmachines	7.3	8.0	$1.006	1/2	63.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 63.8s
#115	Mimo V2 PRO medium	Xiaomi	2.3	6.3	$0.333	0/1	64.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 64.7s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	6.5	6.4	$0.073	1/2	64.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 64.8s
#52	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	2/2	65.1s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 65.1s
#56	Kimi K2.7 Code medium	Moonshot AI	7.3	7.5	$0.740	1/2	66.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 66.0s
#71	Step 3.7 Flash low	Stepfun	7.3	7.3	$0.454	1/2	66.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 66.2s
#30	Muse Spark 1.1 high	Meta	5.9	8.1	$1.694	0/2	70.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 70.3s
#86	DeepSeek V4 Pro none	DeepSeek	7.9	6.9	$0.096	1/2	71.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 71.6s
#178	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	72.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 72.1s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3.8	4.8	$0.067	0/2	73.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 73.0s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	6.5	5.6	$0.077	1/2	74.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 74.5s
#119	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 75.7s

←

1 9 10 11 15

→

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल