संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Qwen3.6 35B A3B 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	6.5	6.4	$0.073	1/2	64.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 64.8s
#115	Mimo V2 PRO medium	Xiaomi	2.3	6.3	$0.333	0/1	64.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 64.7s
#32	Inkling high	Thinkingmachines	7.3	8.0	$1.006	1/2	63.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 63.8s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 61.6s
#124	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 61.2s
#161	Kimi K2.5 none	Moonshot AI	2.8	5.5	$0.127	0/2	61.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 61.0s
#60	GPT-5.4 Mini medium	OpenAI	6.9	7.5	$0.756	1/2	59.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 59.6s
#39	Seed-2.0-Lite medium	Bytedance Seed	6.4	7.9	$0.234	1/2	58.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 58.5s
#24	GPT-5.2 medium	OpenAI	10.0	8.4	$0.951	2/2	58.5s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 58.5s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	2/2	56.3s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 56.3s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	6.4	5.4	$0.041	1/2	55.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 55.9s
#77	Grok 4.3 medium	X AI	6.5	7.1	$0.779	1/2	55.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 55.1s
#17	Claude Opus 4.8 medium	Anthropic	9.9	8.8	$1.931	2/2	54.3s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.931 प्रतिक्रिया समय (औसत) 54.3s
#192	Laguna M.1 medium	Poolside	1.5	4.7	$0.033	0/1	53.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 53.1s
#42	GLM 5.2 medium	Z.ai	5.0	7.8	$0.187	1/1	52.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 52.0s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल