فئة AI BENCHY
ترتيب البرمجة
اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.
| الترتيب | النموذج | الشركة | درجة البرمجة | النتيجة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #77 | Grok 4.20 none | X AI | 3.4 | 5.2 | 0/1 | 1.22s |
| #82 | Nemotron 3 Super none | NVIDIA | 3.3 | 5.1 | 0/1 | 2.99s |
| #10 | Gemini 3 PRO Preview medium | 3.0 | 8.4 | 0/1 | 0ms | |
| #18 | Qwen3.6 Plus medium | Qwen | 3.0 | 8.1 | 0/1 | 0ms |
| #47 | Hunter Alpha medium | OpenRouter | 3.0 | 6.7 | 0/1 | 0ms |
| #48 | Nemotron 3 Super medium | NVIDIA | 3.0 | 6.7 | 0/1 | 0ms |
| #67 | MiniMax M2.5 medium | Minimax | 3.0 | 5.7 | 0/1 | 0ms |
| #68 | Hunter Alpha none | OpenRouter | 3.0 | 5.7 | 0/1 | 0ms |
| #93 | Step 3.5 Flash none | Stepfun | 3.0 | 3.0 | 0/1 | 0ms |
| #83 | GPT-4o-mini none | OpenAI | 3.0 | 4.9 | 0/1 | 2.55s |
| #22 | Gemma 4 26B A4B medium | 2.8 | 8.0 | 0/1 | 147.5s | |
| #91 | Qwen3.5-9B medium | Qwen | 2.6 | 4.4 | 0/1 | 135.6s |
| #61 | DeepSeek V3.2 none | DeepSeek | 2.4 | 6.1 | 0/1 | 7.63s |
| #49 | Grok 4.1 Fast medium | X AI | 2.3 | 6.7 | 0/1 | 23.6s |