संयुक्त मॉडल रैंकिंग | AI BENCHY

AI BENCHY श्रेणी

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

15

औसत संयुक्त स्कोर

6.3

सर्वश्रेष्ठ मॉडल

Qwen3.5 Plus 2026-04-20 2.8

विफलता के कारण

विफलता कारण गलत उत्तर के साथ52 विफलता कारण अमान्य टूल कॉल के साथ19 विफलता कारण API त्रुटि के साथ13 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण समय समाप्त के साथ2 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#124	Kimi K2.6 none	Moonshot AI	3.0	5.5	0/1	3.38s
#125	GPT-5.4 none	OpenAI	3.0	5.5	0/1	2.89s
#126	gpt-oss-120b none	OpenAI	3.0	5.4	0/1	0ms
#127	Grok 4.20 none	X AI	3.0	5.4	0/1	6.04s
#128	Qwen3.6 Flash none	Qwen	3.0	5.4	0/1	4.22s
#131	Qwen3.5-122B-A10B none	Qwen	3.0	5.3	0/1	46.0s
#132	Mistral Small 4 medium	Mistral	3.0	5.3	0/1	25.3s
#134	GLM 5 Turbo none	Z.ai	3.0	5.2	0/1	4.89s
#136	Elephant Alpha medium	Openrouter	3.0	5.1	0/1	3.70s
#137	Elephant Alpha none	Openrouter	3.0	5.1	0/1	3.81s
#138	Ling-2.6-flash none	Inclusionai	3.0	5.0	0/1	35.3s
#140	Qwen3 Coder Next none	Qwen	3.0	4.9	0/1	45.1s
#141	Nemotron 3 Super none	NVIDIA	3.0	4.9	0/1	16.4s
#142	Mistral Small 4 none	Mistral	3.0	4.9	0/1	1.72s
#143	MiMo-V2.5 none	Xiaomi	3.0	4.9	0/1	2.36s

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल