AI BENCHY श्रेणी
कोडिंग रैंकिंग
देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | कोडिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #49 | Grok 4.1 Fast medium | X AI | 2.3 | 6.7 | 0/1 | 23.6s |
| #61 | DeepSeek V3.2 none | DeepSeek | 2.4 | 6.1 | 0/1 | 7.63s |
| #91 | Qwen3.5-9B medium | Qwen | 2.6 | 4.4 | 0/1 | 135.6s |
| #22 | Gemma 4 26B A4B medium | 2.8 | 8.0 | 0/1 | 147.5s | |
| #83 | GPT-4o-mini none | OpenAI | 3.0 | 4.9 | 0/1 | 2.55s |
| #10 | Gemini 3 PRO Preview medium | 3.0 | 8.4 | 0/1 | 0ms | |
| #18 | Qwen3.6 Plus medium | Qwen | 3.0 | 8.1 | 0/1 | 0ms |
| #47 | Hunter Alpha medium | OpenRouter | 3.0 | 6.7 | 0/1 | 0ms |
| #48 | Nemotron 3 Super medium | NVIDIA | 3.0 | 6.7 | 0/1 | 0ms |
| #67 | MiniMax M2.5 medium | Minimax | 3.0 | 5.7 | 0/1 | 0ms |
| #68 | Hunter Alpha none | OpenRouter | 3.0 | 5.7 | 0/1 | 0ms |
| #93 | Step 3.5 Flash none | Stepfun | 3.0 | 3.0 | 0/1 | 0ms |
| #82 | Nemotron 3 Super none | NVIDIA | 3.3 | 5.1 | 0/1 | 2.99s |
| #77 | Grok 4.20 none | X AI | 3.4 | 5.2 | 0/1 | 1.22s |
| #85 | Mercury 2 none | Inception | 3.6 | 4.8 | 0/1 | 969ms |