AI BENCHY زمرہ
ڈومین مخصوص درجہ بندی
دیکھیں کہ ڈومین مخصوص میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
| درجہ | ماڈل | کمپنی | ڈومین مخصوص اسکور | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #25 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 5.3 | 7.9 | 1/3 | 17.5s |
| #156 | Hy3 preview none | Tencent | 3.6 | 4.4 | 0/3 | 17.6s |
| #24 | GPT-5.2 Chat none | OpenAI | 5.3 | 7.9 | 1/3 | 17.8s |
| #130 | MiniMax M2.7 medium | Minimax | 3.0 | 5.3 | 0/3 | 19.0s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 5.3 | 5.0 | 1/3 | 19.7s |
| #13 | Grok 4.20 Beta medium | X AI | 5.3 | 8.5 | 1/3 | 21.3s |
| #93 | Qwen3.6 Plus Preview medium | Qwen | 3.0 | 6.3 | 0/3 | 22.1s |
| #33 | Hy3 preview medium | Tencent | 5.3 | 7.7 | 1/3 | 22.3s |
| #46 | Qwen3.6 35B A3B medium | Qwen | 5.3 | 7.4 | 1/3 | 22.5s |
| #37 | Gemma 4 26B A4B medium | 2.9 | 7.6 | 0/3 | 23.6s | |
| #92 | Laguna M.1 medium | Poolside | 5.3 | 6.4 | 1/3 | 24.1s |
| #72 | DeepSeek V3.2 medium | DeepSeek | 2.9 | 7.0 | 0/3 | 24.3s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 2.9 | 6.6 | 0/3 | 24.7s |
| #41 | Nemotron 3 Ultra 550b A55b medium | NVIDIA | 3.5 | 7.5 | 0/3 | 24.9s |
| #5 | Qwen3.7 Max medium | Qwen | 5.9 | 9.1 | 1/3 | 24.9s |