AI BENCHY श्रेणी
संयुक्त रैंकिंग
देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.
| रैंक | मॉडल | कंपनी | संयुक्त स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #79 | Hunter Alpha medium | OpenRouter | 4.7 | 6.7 | 0/1 | 30.5s |
| #83 | Step 3.5 Flash none | Stepfun | 3.0 | 6.6 | 0/1 | 0ms |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 3.0 | 6.6 | 0/1 | 0ms |
| #85 | Gemma 4 31B none | 3.0 | 6.5 | 0/1 | 0ms | |
| #87 | Gemini 3.1 Flash Lite minimal | 3.0 | 6.4 | 0/1 | 2.53s | |
| #90 | Gemini 3.1 Flash Lite none | 3.0 | 6.4 | 0/1 | 2.73s | |
| #91 | GPT-5.5 none | OpenAI | 3.0 | 6.4 | 0/1 | 5.56s |
| #92 | Laguna M.1 medium | Poolside | 3.0 | 6.4 | 0/1 | 53.1s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 3.0 | 6.3 | 0/1 | 6.65s |
| #96 | Ring-2.6-1T none | Inclusionai | 3.0 | 6.2 | 0/1 | 0ms |
| #97 | Gemini 2.5 Flash none | 3.0 | 6.2 | 0/1 | 4.39s | |
| #98 | GLM 5 none | Z.ai | 3.0 | 6.1 | 0/1 | 4.98s |
| #100 | Grok Build 0.1 none | X AI | 3.0 | 6.0 | 0/1 | 0ms |
| #101 | Mimo V2 Omni none | Xiaomi | 3.0 | 6.0 | 0/1 | 5.96s |
| #102 | Gemma 4 26B A4B none | 3.0 | 6.0 | 0/1 | 30.5s |