AI BENCHY श्रेणी
कोडिंग रैंकिंग
देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | कोडिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #47 | Qwen3.5-Flash medium | Qwen | 4.1 | 7.6 | 0/2 | 54.2s |
| #29 | GLM 5 Turbo medium | Z.ai | 7.3 | 7.9 | 1/2 | 53.9s |
| #43 | Qwen3.6 Flash medium | Qwen | 5.1 | 7.6 | 0/2 | 51.9s |
| #83 | DeepSeek V4 Pro high | DeepSeek | 2.8 | 6.6 | 0/2 | 51.8s |
| #94 | GPT-5 Nano medium | OpenAI | 5.4 | 6.1 | 0/2 | 47.8s |
| #97 | gpt-oss-120b medium | OpenAI | 3.9 | 5.9 | 0/2 | 47.2s |
| #121 | Mistral Small 4 medium | Mistral | 5.1 | 5.4 | 0/2 | 44.8s |
| #111 | Owl Alpha none | Openrouter | 7.0 | 5.7 | 1/2 | 39.7s |
| #9 | Gemini 3.5 Flash none | 8.2 | 8.9 | 1/2 | 39.6s | |
| #126 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 3.3 | 5.4 | 0/1 | 38.1s |
| #128 | Kimi K2.5 none | Moonshot AI | 6.8 | 5.3 | 1/2 | 36.0s |
| #62 | Laguna M.1 medium | Poolside | 4.3 | 7.3 | 0/1 | 35.6s |
| #50 | Claude Sonnet 4.6 medium | Anthropic | 6.9 | 7.6 | 1/2 | 33.9s |
| #19 | Hy3 preview medium | Tencent | 10.0 | 8.1 | 1/1 | 31.4s |
| #14 | Grok 4.20 Beta medium | X AI | 10.0 | 8.5 | 1/1 | 31.4s |