संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Gemini 3 PRO Preview 1.5

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ68 विफलता कारण कोई उत्तर नहीं के साथ29 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#184	Hunter Alpha medium	OpenRouter	2.3	4.7	$0.000	0/1	30.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 30.5s
#117	GPT-5.6 Luna low	OpenAI	2.8	6.2	$0.249	0/2	13.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 13.7s
#151	GLM 5.1 none	Z.ai	2.8	5.5	$0.164	0/2	46.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 46.9s
#155	Kimi K2.5 none	Moonshot AI	2.8	5.5	$0.127	0/2	61.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 61.0s
#194	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/2	802.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 802.8s
#110	Gemma 4 31B medium	Google	2.9	6.3	$0.163	0/2	433.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 433.1s
#123	Inkling low	Thinkingmachines	2.9	6.1	$0.187	0/2	22.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 22.7s
#125	Qwen3.5-Flash none	Qwen	2.9	6.1	$0.073	0/2	243.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 243.6s
#132	GPT-5.6 Terra none	OpenAI	2.9	6.0	$0.349	0/2	7.02s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 7.02s
#137	North Mini Code medium	Cohere	2.9	5.9	$0.000	0/2	554.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 554.9s
#164	Inkling none	Thinkingmachines	2.9	5.2	$0.147	0/2	25.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 25.7s
#61	Gemini 3 Flash Preview low	Google	3.0	7.4	$0.177	0/2	10.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 10.2s
#79	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/2	0ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 0ms
#88	Gemini 3.5 Flash minimal	Google	3.0	6.8	$0.300	0/2	14.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 14.4s
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/2	817.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 817.6s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल