संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ68 विफलता कारण कोई उत्तर नहीं के साथ29 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#82	DeepSeek V4 Pro none	DeepSeek	7.9	6.9	$0.096	1/2	71.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 71.6s
#19	Qwen3.6 Max Preview medium	Qwen	7.3	8.4	$1.143	1/2	177.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.143 प्रतिक्रिया समय (औसत) 177.5s
#26	GPT-5 Mini medium	OpenAI	7.3	8.1	$0.237	1/2	99.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 99.8s
#28	Inkling high	Thinkingmachines	7.3	8.0	$1.006	1/2	63.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 63.8s
#29	Step 3.7 Flash medium	Stepfun	7.3	8.0	$0.515	1/2	80.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 80.9s
#30	GPT-5.2 Chat none	OpenAI	7.3	8.0	$0.604	1/2	13.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 13.9s
#32	Inkling medium	Thinkingmachines	7.3	8.0	$0.391	1/2	41.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 41.2s
#52	Kimi K2.7 Code medium	Moonshot AI	7.3	7.5	$0.751	1/2	66.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.751 प्रतिक्रिया समय (औसत) 66.0s
#58	Qwen3.5-27B medium	Qwen	7.3	7.4	$1.627	1/2	595.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 595.2s
#60	LongCat 2.0 medium	Meituan	7.3	7.4	$0.478	1/2	151.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 151.0s
#67	Step 3.7 Flash low	Stepfun	7.3	7.3	$0.454	1/2	66.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 66.2s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	7.3	7.2	$0.482	1/2	106.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 106.7s
#76	DeepSeek V3.2 medium	DeepSeek	7.3	7.0	$0.078	1/2	79.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 79.9s
#80	Seed-2.0-Mini medium	Bytedance Seed	7.3	7.0	$0.101	1/2	282.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 282.3s
#108	Ring-2.6-1T medium	Inclusionai	7.3	6.3	$0.103	1/2	257.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 257.3s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल