संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Gemini 3 PRO Preview 1.5

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#164	KAT-Coder-Air V2.5 low	Kwaipilot	6.4	5.4	$0.041	1/2	55.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 55.9s
#20	Claude Fable 5 medium	Anthropic	6.5	8.6	$3.478	1/2	27.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 27.5s
#23	Grok 4.5 low	X AI	6.5	8.4	$0.935	1/2	12.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 12.8s
#37	Kimi K3 max	Moonshot AI	6.5	8.0	$3.112	1/2	223.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 223.0s
#63	Qwen3.7 Max none	Qwen	6.5	7.4	$0.197	1/2	37.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.197 प्रतिक्रिया समय (औसत) 37.2s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.5	7.2	$0.317	1/2	92.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 92.4s
#77	Grok 4.3 medium	X AI	6.5	7.1	$0.779	1/2	55.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 55.1s
#87	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	1/2	8.37s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 8.37s
#89	Qwen3.6 Flash medium	Qwen	6.5	6.9	$0.738	1/2	299.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 299.2s
#91	GPT-5.5 none	OpenAI	6.5	6.9	$0.544	1/2	8.90s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 8.90s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 61.6s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	6.5	6.4	$0.073	1/2	64.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 64.8s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	28.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 28.4s
#118	Claude Sonnet 5 none	Anthropic	6.5	6.3	$0.548	1/2	31.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 31.4s
#127	gpt-oss-120b medium	OpenAI	6.5	6.1	$0.019	1/2	24.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 24.0s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल