संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ96 विफलता कारण गलत उत्तर के साथ71 विफलता कारण कोई उत्तर नहीं के साथ33 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

220/220

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#104	Gemini 3.5 Flash-Lite medium	Google	3.8	6.5	$0.369	0/2	28.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.369 प्रतिक्रिया समय (औसत) 28.7s
#180	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	72.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 72.1s
#191	KAT-Coder-Air V2.5 none	Kwaipilot	3.8	4.8	$0.067	0/2	73.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 73.0s
#199	MiniMax M2.5 medium	Minimax	3.7	4.6	$0.340	0/2	83.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 83.2s
#98	GLM 5V Turbo medium	Z.ai	3.4	6.7	$0.457	0/1	15.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 15.1s
#111	Gemini 3.1 Flash Lite low	Google	3.2	6.5	$0.621	0/2	161.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 161.2s
#158	Qwen3.6 27B none	Qwen	3.2	5.5	$0.087	0/2	83.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 83.1s
#164	Laguna S 2.1 medium	Poolside	3.2	5.4	$0.059	0/2	284.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.059 प्रतिक्रिया समय (औसत) 284.7s
#166	GPT-5.6 Luna none	OpenAI	3.2	5.4	$0.142	0/2	6.68s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 6.68s
#179	North Mini Code none	Cohere	3.2	5.1	$0.000	0/2	96.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 96.2s
#181	Laguna S 2.1 low	Poolside	3.2	5.0	$0.091	0/2	412.5s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.091 प्रतिक्रिया समय (औसत) 412.5s
#65	Gemini 3 Flash Preview low	Google	3.0	7.4	$0.177	0/2	10.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 10.2s
#83	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/2	0ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 0ms
#92	Gemini 3.5 Flash minimal	Google	3.0	6.8	$0.300	0/2	14.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 14.4s
#94	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/2	817.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 817.6s

←

1 9 10 11 15

→

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल