संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Muse Spark 1.1 5.9

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ68 विफलता कारण कोई उत्तर नहीं के साथ29 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#116	Seed-2.0-Lite none	Bytedance Seed	3.0	6.2	$0.066	0/2	25.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 25.6s
#117	GPT-5.6 Luna low	OpenAI	2.8	6.2	$0.249	0/2	13.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 13.7s
#118	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 61.2s
#119	Qwen3.5-35B-A3B medium	Qwen	3.8	6.2	$0.837	0/2	512.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.837 प्रतिक्रिया समय (औसत) 512.8s
#120	Gemini 3.1 Flash Lite minimal	Google	3.0	6.1	$0.047	0/2	7.75s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	3.0	6.1	$0.046	0/2	9.49s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 9.49s
#123	Inkling low	Thinkingmachines	2.9	6.1	$0.187	0/2	22.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 22.7s
#124	Qwen3.6 Flash none	Qwen	3.8	6.1	$0.062	0/2	26.5s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 26.5s
#125	Qwen3.5-Flash none	Qwen	2.9	6.1	$0.073	0/2	243.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 243.6s
#127	Qwen3.5-35B-A3B none	Qwen	3.8	6.1	$0.106	0/2	128.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 128.3s
#129	Nemotron 3 Ultra none	NVIDIA	3.0	6.1	$0.095	0/2	21.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 21.1s
#132	GPT-5.6 Terra none	OpenAI	2.9	6.0	$0.349	0/2	7.02s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 7.02s
#133	Gemini 3 PRO Preview medium	Google	1.5	6.0	$0.385	0/1	10.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 10.4s
#137	North Mini Code medium	Cohere	2.9	5.9	$0.000	0/2	554.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 554.9s
#138	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 77.8s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल