संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Qwen3.6 35B A3B 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	2/2	167.1s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 167.1s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	163.3s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 163.3s
#111	Gemini 3.1 Flash Lite low	Google	3.2	6.5	$0.621	0/2	161.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 161.2s
#110	Gemini 3.1 Flash Lite Preview low	Google	3.0	6.5	$0.646	0/2	160.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 160.6s
#64	LongCat 2.0 medium	Meituan	7.3	7.4	$0.478	1/2	151.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 151.0s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	1/1	149.2s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 149.2s
#134	GPT-5 Nano medium	OpenAI	6.4	6.1	$0.114	1/2	146.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 146.9s
#51	MiniMax M3 medium	Minimax	10.0	7.6	$0.286	2/2	138.2s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 138.2s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	6.4	6.9	$0.467	1/2	135.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 135.7s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	2/2	130.2s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 130.2s
#148	Qwen3.5-122B-A10B none	Qwen	5.2	5.7	$0.247	0/2	129.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 129.3s
#133	Qwen3.5-35B-A3B none	Qwen	3.8	6.1	$0.106	0/2	128.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 128.3s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.9	6.9	$0.187	1/2	125.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 125.4s
#75	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	2/2	117.7s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 117.7s
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	114.1s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 114.1s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल