संयुक्त मॉडल रैंकिंग | AI BENCHY

AI BENCHY श्रेणी

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

15

औसत संयुक्त स्कोर

6.3

सर्वश्रेष्ठ मॉडल

Qwen3.5 Plus 2026-04-20 2.8

विफलता के कारण

विफलता कारण गलत उत्तर के साथ52 विफलता कारण अमान्य टूल कॉल के साथ19 विफलता कारण API त्रुटि के साथ13 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण समय समाप्त के साथ2 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#114	Qwen3.5 Plus 2026-04-20 none	Qwen	2.8	5.7	0/1	13.3s
#115	Qwen3.5-27B none	Qwen	2.8	5.7	0/1	9.39s
#112	GLM 5.1 none	Z.ai	2.8	5.7	0/1	32.6s
#135	Kimi K2.5 none	Moonshot AI	2.8	5.2	0/1	19.2s
#158	GLM 4.7 Flash medium	Z.ai	2.8	4.4	0/1	65.6s
#16	Gemini 3 Flash Preview low	Google	3.0	8.4	0/1	3.27s
#20	Gemini 3.5 Flash none	Google	3.0	8.1	0/1	0ms
#27	Gemma 4 31B medium	Google	3.0	7.8	0/1	0ms
#32	Gemini 3.5 Flash minimal	Google	3.0	7.7	0/1	3.56s
#34	Qwen3.7 Max none	Qwen	3.0	7.7	0/1	2.17s
#35	Gemini 3 PRO Preview medium	Google	3.0	7.6	0/1	10.4s
#46	Qwen3.6 35B A3B medium	Qwen	3.0	7.4	0/1	0ms
#50	Gemini 3.1 Flash Lite Preview low	Google	3.0	7.4	0/1	11.9s
#58	Gemini 3.1 Flash Lite Preview none	Google	3.0	7.2	0/1	3.20s
#61	Gemini 3.1 Flash Lite low	Google	3.0	7.2	0/1	4.48s

1 2 11

→

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल