संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ96 विफलता कारण गलत उत्तर के साथ71 विफलता कारण कोई उत्तर नहीं के साथ33 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

220/220

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#110	Gemini 3.1 Flash Lite Preview low	Google	3.0	6.5	$0.646	0/2	160.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 160.6s
#112	Gemini 3.1 Flash Lite Preview none	Google	3.0	6.4	$0.052	0/2	6.23s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 6.23s
#122	Seed-2.0-Lite none	Bytedance Seed	3.0	6.2	$0.066	0/2	25.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 25.6s
#124	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 61.2s
#126	Gemini 3.1 Flash Lite minimal	Google	3.0	6.1	$0.047	0/2	7.75s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 7.75s
#128	Gemini 3.1 Flash Lite none	Google	3.0	6.1	$0.046	0/2	9.49s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 9.49s
#135	Nemotron 3 Ultra none	NVIDIA	3.0	6.1	$0.095	0/2	21.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 21.1s
#144	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 77.8s
#145	GPT-5.4 none	OpenAI	3.0	5.8	$0.397	0/2	9.26s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 9.26s
#160	MiMo-V2.5-Pro none	Xiaomi	3.0	5.5	$0.068	0/2	28.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 28.3s
#162	Gemma 4 26B A4B none	Google	3.0	5.5	$0.015	0/2	37.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 37.2s
#168	Laguna XS 2.1 none	Poolside	3.0	5.3	$0.008	0/2	10.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 10.4s
#173	Mistral Small 4 none	Mistral	3.0	5.1	$0.022	0/2	7.44s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 7.44s
#174	Qwen3 Coder Next none	Qwen	3.0	5.1	$0.025	0/2	30.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 30.9s
#175	Mistral Small 4 medium	Mistral	3.0	5.1	$0.096	0/2	32.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 32.4s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल