AI BENCHY श्रेणी
कोडिंग रैंकिंग
देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | कोडिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #142 | Qwen3 Coder Next medium | Qwen | 4.1 | 4.7 | 0/2 | 1.17s |
| #79 | Kimi K2.5 medium | Moonshot AI | 4.1 | 6.7 | 0/2 | 215.9s |
| #74 | Grok 4.20 medium | X AI | 4.1 | 7.0 | 0/2 | 65.1s |
| #122 | Elephant Alpha medium | Openrouter | 4.0 | 5.4 | 0/2 | 1.30s |
| #125 | Qwen3.5-122B-A10B none | Qwen | 4.0 | 5.4 | 0/2 | 2.14s |
| #135 | Mistral Small 4 none | Mistral | 4.0 | 5.0 | 0/2 | 1.03s |
| #73 | DeepSeek V3.2 medium | DeepSeek | 3.9 | 7.0 | 0/2 | 185.0s |
| #97 | gpt-oss-120b medium | OpenAI | 3.9 | 5.9 | 0/2 | 47.2s |
| #24 | Gemma 4 31B medium | 3.8 | 8.0 | 0/2 | 110.9s | |
| #146 | Mercury 2 none | Inception | 3.5 | 4.6 | 0/2 | 831ms |
| #118 | MiniMax M2.5 medium | Minimax | 3.5 | 5.5 | 0/2 | 125.8s |
| #120 | Grok 4.20 none | X AI | 3.4 | 5.4 | 0/1 | 1.22s |
| #75 | MiMo-V2-Omni medium | Xiaomi | 3.4 | 6.9 | 0/2 | 183.9s |
| #134 | Nemotron 3 Super none | NVIDIA | 3.4 | 5.0 | 0/2 | 3.02s |
| #149 | GLM 4.7 Flash medium | Z.ai | 3.4 | 4.5 | 0/2 | 55.3s |