संयुक्त मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

6.3

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ52 विफलता कारण अमान्य टूल कॉल के साथ19 विफलता कारण API त्रुटि के साथ13 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण समय समाप्त के साथ2 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#91	GPT-5.5 none	OpenAI	3.0	6.4	0/1	5.56s
#154	Qwen3.5-9B none	Qwen	3.0	4.6	0/1	5.91s
#101	Mimo V2 Omni none	Xiaomi	3.0	6.0	0/1	5.96s
#127	Grok 4.20 none	X AI	3.0	5.4	0/1	6.04s
#108	Qwen3.5-Flash none	Qwen	3.0	5.8	0/1	6.22s
#3	Gemini 3.5 Flash low	Google	10.0	9.4	1/1	6.44s
#106	Grok 4.20 Beta none	X AI	3.0	5.8	0/1	6.48s
#109	GLM 5V Turbo none	Z.ai	3.0	5.8	0/1	6.51s
#120	Mimo V2 PRO none	Xiaomi	3.0	5.6	0/1	6.58s
#110	Seed-2.0-Lite none	Bytedance Seed	3.0	5.8	0/1	6.59s
#95	Qwen3.5 Plus 2026-02-15 none	Qwen	3.0	6.3	0/1	6.65s
#147	GPT-4o-mini none	OpenAI	3.0	4.8	0/1	7.58s
#57	Step 3.7 Flash low	Stepfun	10.0	7.3	1/1	7.98s
#151	Trinity Large Preview none	Arcee AI	3.0	4.6	0/1	8.91s
#22	Step 3.7 Flash medium	Stepfun	10.0	8.0	1/1	9.06s

संयुक्त रैंकिंग

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल