AI BENCHY श्रेणी
कोडिंग रैंकिंग
देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | कोडिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #33 | Grok 4.3 medium | X AI | 7.4 | 7.8 | 1/2 | 55.3s |
| #124 | Laguna M.1 none | Poolside | 7.5 | 5.4 | 0/1 | 2.93s |
| #49 | MiMo-V2-Pro medium | Xiaomi | 7.5 | 7.6 | 1/2 | 94.2s |
| #61 | GPT-5.4 Mini medium | OpenAI | 7.5 | 7.3 | 1/2 | 73.3s |
| #21 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 7.6 | 8.1 | 1/2 | 193.8s |
| #1 | Gemini 3 Flash Preview medium | 7.9 | 9.8 | 1/2 | 96.0s | |
| #9 | Gemini 3.5 Flash none | 8.2 | 8.9 | 1/2 | 39.6s | |
| #11 | GPT-5.5 medium | OpenAI | 8.2 | 8.7 | 1/2 | 69.7s |
| #15 | Qwen3.6 Max Preview medium | Qwen | 8.2 | 8.4 | 1/2 | 178.0s |
| #28 | GPT-5.4 medium | OpenAI | 8.2 | 7.9 | 1/2 | 55.0s |
| #30 | GPT-5.2 Chat none | OpenAI | 8.2 | 7.9 | 1/2 | 8.05s |
| #2 | Gemini 3.5 Flash high | 10.0 | 9.6 | 2/2 | 24.6s | |
| #5 | Qwen3.7 Max medium | Qwen | 10.0 | 9.0 | 2/2 | 23.0s |
| #7 | Claude Opus 4.7 medium | Anthropic | 10.0 | 8.9 | 2/2 | 14.8s |
| #8 | GPT-5.5 low | OpenAI | 10.0 | 8.9 | 2/2 | 14.4s |