संयुक्त मॉडल रैंकिंग | AI BENCHY

AI BENCHY श्रेणी

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

15

औसत संयुक्त स्कोर

6.3

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ52 विफलता कारण अमान्य टूल कॉल के साथ19 विफलता कारण API त्रुटि के साथ13 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण समय समाप्त के साथ2 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#16	Gemini 3 Flash Preview low	Google	3.0	8.4	0/1	3.27s
#20	Gemini 3.5 Flash none	Google	3.0	8.1	0/1	0ms
#27	Gemma 4 31B medium	Google	3.0	7.8	0/1	0ms
#32	Gemini 3.5 Flash minimal	Google	3.0	7.7	0/1	3.56s
#34	Qwen3.7 Max none	Qwen	3.0	7.7	0/1	2.17s
#35	Gemini 3 PRO Preview medium	Google	3.0	7.6	0/1	10.4s
#46	Qwen3.6 35B A3B medium	Qwen	3.0	7.4	0/1	0ms
#48	Gemini 3 Flash Preview none	Google	4.7	7.4	0/1	3.56s
#50	Gemini 3.1 Flash Lite Preview low	Google	3.0	7.4	0/1	11.9s
#51	Mimo V2 PRO medium	Xiaomi	4.7	7.4	0/1	64.7s
#58	Gemini 3.1 Flash Lite Preview none	Google	3.0	7.2	0/1	3.20s
#59	GLM 5V Turbo medium	Z.ai	6.9	7.2	0/1	15.1s
#61	Gemini 3.1 Flash Lite low	Google	3.0	7.2	0/1	4.48s
#66	Qwen3.5-35B-A3B medium	Qwen	4.7	7.1	0/1	75.3s
#74	Qwen3.6 Max Preview none	Qwen	3.0	6.9	0/1	20.5s

1 2 11

→

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल