संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Gemini 3 PRO Preview 1.5

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#136	Step 3.5 Flash medium	Stepfun	6.5	6.0	$0.108	1/2	813.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 813.7s
#142	GPT-5.4 Mini none	OpenAI	6.5	5.9	$0.095	1/2	6.22s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 6.22s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	6.5	5.6	$0.077	1/2	74.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 74.5s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	6.5	5.6	$0.048	1/2	19.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 19.6s
#168	Ling-2.6-1T none	Inclusionai	6.5	5.3	$0.016	1/2	23.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 23.8s
#27	Muse Spark 1.1 low	Meta	6.6	8.3	$0.647	1/2	29.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 29.4s
#81	Kimi K2.5 medium	Moonshot AI	6.7	7.0	$0.600	1/2	89.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 89.2s
#82	Mercury 2 medium	Inception	6.7	7.0	$0.093	1/2	7.84s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 7.84s
#105	Qwen3.6 27B medium	Qwen	6.7	6.5	$0.779	0/2	584.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 584.1s
#60	GPT-5.4 Mini medium	OpenAI	6.9	7.5	$0.756	1/2	59.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 59.6s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.9	7.5	$0.437	1/2	175.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.437 प्रतिक्रिया समय (औसत) 175.8s
#72	Kimi K2.6 medium	Moonshot AI	6.9	7.2	$1.036	1/2	458.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 458.6s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.9	6.9	$0.187	1/2	125.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 125.4s
#101	GLM 5.2 none	Z.ai	6.9	6.6	$0.128	1/2	50.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 50.2s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.2	7.3	$0.115	1/2	16.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 16.6s

←

1 9 10 11 15

→

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल