AI BENCHY زمرہ
کوڈنگ درجہ بندی
دیکھیں کہ کوڈنگ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
| درجہ | ماڈل | کمپنی | کوڈنگ اسکور | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #49 | Grok 4.1 Fast medium | X AI | 2.3 | 6.7 | 0/1 | 23.6s |
| #44 | Grok 4.20 medium | X AI | 4.3 | 7.0 | 0/1 | 24.3s |
| #45 | Gemma 4 31B none | 10.0 | 6.9 | 1/1 | 26.1s | |
| #65 | gpt-oss-120b medium | OpenAI | 4.3 | 5.8 | 0/1 | 26.3s |
| #53 | Grok 4.20 Multi Agent Beta medium | X AI | 10.0 | 6.4 | 1/1 | 27.1s |
| #69 | Mistral Small 4 medium | Mistral | 6.7 | 5.7 | 0/1 | 30.5s |
| #23 | Grok 4.20 Beta medium | X AI | 10.0 | 8.0 | 1/1 | 31.4s |
| #24 | Claude Sonnet 4.6 medium | Anthropic | 10.0 | 8.0 | 1/1 | 35.8s |
| #72 | Kimi K2.5 none | Moonshot AI | 10.0 | 5.5 | 1/1 | 38.8s |
| #74 | Trinity Large Preview none | Arcee AI | 6.3 | 5.3 | 0/1 | 39.5s |
| #54 | GPT-5 Nano medium | OpenAI | 6.7 | 6.3 | 0/1 | 40.7s |
| #30 | Qwen3.5-Flash medium | Qwen | 4.7 | 7.8 | 0/1 | 45.7s |
| #21 | MiMo-V2-Pro medium | Xiaomi | 10.0 | 8.1 | 1/1 | 52.1s |
| #32 | MiMo-V2-Omni medium | Xiaomi | 4.0 | 7.7 | 0/1 | 68.5s |
| #8 | Qwen3.5-27B medium | Qwen | 10.0 | 8.4 | 1/1 | 70.4s |