संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ96 विफलता कारण गलत उत्तर के साथ71 विफलता कारण कोई उत्तर नहीं के साथ33 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

220/220

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#165	KAT-Coder-Air V2.5 low	Kwaipilot	6.4	5.4	$0.041	1/2	55.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 55.9s
#100	Gemma 4 26B A4B medium	Google	6.3	6.6	$0.089	1/2	492.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.089 प्रतिक्रिया समय (औसत) 492.9s
#108	Laguna XS 2.1 medium	Poolside	6.3	6.5	$0.068	1/2	218.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 218.1s
#55	Nemotron 3 Ultra medium	NVIDIA	6.3	7.5	$0.774	1/2	218.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 218.2s
#95	Gemini 3.5 Flash-Lite low	Google	6.3	6.7	$0.145	1/2	8.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.145 प्रतिक्रिया समय (औसत) 8.96s
#30	Muse Spark 1.1 high	Meta	5.9	8.1	$1.694	0/2	70.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 70.3s
#148	Qwen3.5-122B-A10B none	Qwen	5.2	5.7	$0.247	0/2	129.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 129.3s
#42	GLM 5.2 medium	Z.ai	5.0	7.8	$0.182	1/1	52.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.182 प्रतिक्रिया समय (औसत) 52.0s
#46	GLM 5 medium	Z.ai	5.0	7.7	$0.307	1/1	29.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 29.0s
#53	GLM 5 Turbo medium	Z.ai	5.0	7.6	$0.323	1/1	13.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 13.9s
#106	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 46.0s
#137	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 20.9s
#140	Mimo V2 Omni medium	Xiaomi	5.0	5.9	$0.683	1/1	25.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 25.9s
#141	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 113.1s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	1/1	149.2s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 149.2s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल