AI BENCHY زمرہ
مشترکہ درجہ بندی
دیکھیں کہ مشترکہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: میٹرک ↑.
| درجہ | ماڈل | کمپنی | مشترکہ اسکور | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #26 | Qwen3.6 Plus medium | Qwen | 10.0 | 7.9 | 1/1 | 35.0s |
| #28 | Gemini 2.5 Flash medium | 10.0 | 7.8 | 1/1 | 28.4s | |
| #29 | Qwen3.5-122B-A10B medium | Qwen | 10.0 | 7.8 | 1/1 | 107.8s |
| #30 | Qwen3.5-27B medium | Qwen | 10.0 | 7.8 | 1/1 | 164.0s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 10.0 | 7.7 | 1/1 | 76.6s |
| #33 | Hy3 preview medium | Tencent | 10.0 | 7.7 | 1/1 | 46.0s |
| #36 | Qwen3.5 Plus 2026-04-20 medium | Qwen | 10.0 | 7.6 | 1/1 | 92.4s |
| #38 | Grok 4.3 medium | X AI | 10.0 | 7.6 | 1/1 | 64.0s |
| #39 | Qwen3.6 Flash medium | Qwen | 10.0 | 7.5 | 1/1 | 20.3s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 10.0 | 7.5 | 1/1 | 14.9s | |
| #42 | GPT-5.2 medium | OpenAI | 10.0 | 7.5 | 1/1 | 14.1s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 10.0 | 7.5 | 1/1 | 53.4s |
| #44 | Gemini 3.1 Flash Lite medium | 10.0 | 7.5 | 1/1 | 10.9s | |
| #45 | GPT-5.4 Mini medium | OpenAI | 10.0 | 7.5 | 1/1 | 17.8s |
| #47 | Grok Build 0.1 medium | X AI | 10.0 | 7.4 | 1/1 | 32.8s |