AI BENCHY زمرہ
معلومات عامہ درجہ بندی
دیکھیں کہ معلومات عامہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
169/169
ماڈلز فلٹر کریں
موجودہ تلاش اور فلٹرز سے کوئی ماڈل مطابقت نہیں رکھتا۔
| درجہ | ماڈل | کمپنی | معلومات عامہ اسکور | اسکور | کل لاگت | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|---|
| #25 | Qwen3.7 Plus medium | Qwen | 3.0 | 8.2 | $0.177 | 0/1 | 91.1s |
| #33 | Qwen3.5 Plus 2026-04-20 medium | Qwen | 3.0 | 7.8 | $0.317 | 0/1 | 92.6s |
| #40 | MiniMax M3 medium | Minimax | 3.0 | 7.6 | $0.131 | 0/1 | 100.8s |
| #28 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 3.0 | 8.0 | $0.310 | 0/1 | 103.8s |
| #80 | Step 3.5 Flash medium | Stepfun | 3.0 | 6.6 | $0.070 | 0/1 | 108.4s |
| #72 | Ring-2.6-1T medium | Inclusionai | 3.0 | 6.8 | $0.033 | 0/1 | 113.9s |
| #20 | Step 3.7 Flash medium | Stepfun | 3.0 | 8.5 | $0.376 | 0/1 | 114.0s |
| #168 | Step 3.5 Flash none | Stepfun | 3.0 | 2.6 | $0.020 | 0/1 | 114.1s |
| #47 | Qwen3.6 Flash medium | Qwen | 3.0 | 7.5 | $0.288 | 0/1 | 122.9s |
| #39 | Step 3.7 Flash low | Stepfun | 3.0 | 7.7 | $0.341 | 0/1 | 124.8s |
| #35 | Kimi K2.6 medium | Moonshot AI | 3.0 | 7.8 | $0.889 | 0/1 | 130.3s |
| #144 | Ring-2.6-1T none | Inclusionai | 3.0 | 4.8 | $0.026 | 0/1 | 133.6s |
| #63 | Step 3.7 Flash high | Stepfun | 3.0 | 7.1 | $1.148 | 0/1 | 149.3s |
| #165 | Qwen3.5-9B medium | Qwen | 3.0 | 3.8 | $0.036 | 0/1 | 177.0s |
| #89 | Qwen3.5-35B-A3B medium | Qwen | 3.0 | 6.3 | $0.401 | 0/1 | 177.4s |