AI BENCHY श्रेणी
संयुक्त रैंकिंग
देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.
| रैंक | मॉडल | कंपनी | संयुक्त स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #121 | Owl Alpha none | Openrouter | 3.0 | 5.5 | 0/1 | 21.7s |
| #122 | GLM 4.7 Flash none | Z.ai | 3.0 | 5.5 | 0/1 | 3.22s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 3.0 | 5.5 | 0/1 | 3.54s |
| #124 | Kimi K2.6 none | Moonshot AI | 3.0 | 5.5 | 0/1 | 3.38s |
| #125 | GPT-5.4 none | OpenAI | 3.0 | 5.5 | 0/1 | 2.89s |
| #126 | gpt-oss-120b none | OpenAI | 3.0 | 5.4 | 0/1 | 0ms |
| #127 | Grok 4.20 none | X AI | 3.0 | 5.4 | 0/1 | 6.04s |
| #128 | Qwen3.6 Flash none | Qwen | 3.0 | 5.4 | 0/1 | 4.22s |
| #129 | MiniMax M2.5 medium | Minimax | 4.5 | 5.3 | 0/1 | 60.4s |
| #130 | MiniMax M2.7 medium | Minimax | 4.7 | 5.3 | 0/1 | 41.0s |
| #131 | Qwen3.5-122B-A10B none | Qwen | 3.0 | 5.3 | 0/1 | 46.0s |
| #132 | Mistral Small 4 medium | Mistral | 3.0 | 5.3 | 0/1 | 25.3s |
| #133 | DeepSeek V3.2 none | DeepSeek | 6.5 | 5.2 | 0/1 | 115.9s |
| #134 | GLM 5 Turbo none | Z.ai | 3.0 | 5.2 | 0/1 | 4.89s |
| #135 | Kimi K2.5 none | Moonshot AI | 2.8 | 5.2 | 0/1 | 19.2s |