संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Gemini 3 PRO Preview 1.5

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#179	DeepSeek V3.2 none	DeepSeek	4.8	5.0	$0.054	0/2	113.5s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 113.5s
#119	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 75.7s
#42	GLM 5.2 medium	Z.ai	5.0	7.8	$0.187	1/1	52.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 52.0s
#46	GLM 5 medium	Z.ai	5.0	7.7	$0.307	1/1	29.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 29.0s
#53	GLM 5 Turbo medium	Z.ai	5.0	7.6	$0.323	1/1	13.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 13.9s
#106	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 46.0s
#137	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 20.9s
#140	Mimo V2 Omni medium	Xiaomi	5.0	5.9	$0.683	1/1	25.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 25.9s
#141	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 113.1s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	1/1	149.2s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 149.2s
#159	Hy3 preview low	Tencent	5.0	5.5	$0.015	1/1	78.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 78.7s
#169	Gemini 3.1 Flash Lite Preview high	Google	5.0	5.3	$2.310	1/1	280.5s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 280.5s
#181	Qwen3.6 Plus Preview medium	Qwen	5.0	4.9	$0.000	1/1	35.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 35.0s
#191	Grok 4.1 Fast medium	X AI	5.0	4.7	$0.069	1/1	37.6s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 37.6s
#148	Qwen3.5-122B-A10B none	Qwen	5.2	5.7	$0.247	0/2	129.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 129.3s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल