AI BENCHY श्रेणी
कोडिंग रैंकिंग
देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | कोडिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #33 | Grok 4.3 medium | X AI | 7.4 | 7.8 | 1/2 | 55.3s |
| #29 | GLM 5 Turbo medium | Z.ai | 7.3 | 7.9 | 1/2 | 53.9s |
| #12 | Gemini 3 Flash Preview low | 7.3 | 8.6 | 1/2 | 6.66s | |
| #106 | Qwen3.5-27B none | Qwen | 7.3 | 5.8 | 1/2 | 1.98s |
| #87 | Mercury 2 medium | Inception | 7.2 | 6.5 | 1/2 | 2.29s |
| #66 | Claude Opus 4.6 medium | Anthropic | 7.2 | 7.2 | 1/2 | 29.4s |
| #23 | Seed-2.0-Lite medium | Bytedance Seed | 7.0 | 8.1 | 1/2 | 107.7s |
| #45 | MiMo-V2.5-Pro medium | Xiaomi | 7.0 | 7.6 | 1/2 | 81.7s |
| #42 | Grok Build 0.1 medium | X AI | 7.0 | 7.7 | 1/2 | 62.6s |
| #111 | Owl Alpha none | Openrouter | 7.0 | 5.7 | 1/2 | 39.7s |
| #4 | Gemini 3.1 Pro Preview medium | 7.0 | 9.3 | 1/2 | 54.3s | |
| #25 | Gemini 3.5 Flash minimal | 7.0 | 7.9 | 1/2 | 3.39s | |
| #26 | Qwen3.5-27B medium | Qwen | 7.0 | 7.9 | 1/2 | 123.9s |
| #55 | GPT-5.3 Chat none | OpenAI | 6.9 | 7.4 | 1/2 | 10.5s |
| #56 | MiMo-V2.5 medium | Xiaomi | 6.9 | 7.4 | 1/2 | 64.5s |