AI BENCHY زمرہ
ڈومین مخصوص درجہ بندی
دیکھیں کہ ڈومین مخصوص میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: میٹرک ↑.
| درجہ | ماڈل | کمپنی | ڈومین مخصوص اسکور | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #18 | GLM 5 Turbo medium | Z.ai | 2.9 | 8.1 | 0/3 | 71.1s |
| #24 | Gemma 4 26B A4B medium | 2.9 | 8.0 | 0/3 | 23.6s | |
| #51 | Nemotron 3 Super medium | NVIDIA | 2.9 | 6.7 | 0/3 | 16.2s |
| #68 | gpt-oss-120b medium | OpenAI | 2.9 | 5.8 | 0/3 | 50.9s |
| #71 | MiniMax M2.5 medium | Minimax | 2.9 | 5.7 | 0/3 | 237.3s |
| #96 | GPT-5.4 Nano none | OpenAI | 2.9 | 4.5 | 0/3 | 926ms |
| #19 | Qwen3.5-122B-A10B medium | Qwen | 2.9 | 8.1 | 0/3 | 63.4s |
| #20 | Qwen3.6 Plus medium | Qwen | 2.9 | 8.1 | 0/3 | 29.6s |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 2.9 | 8.0 | 0/3 | 0ms |
| #54 | Mercury 2 medium | Inception | 2.9 | 6.5 | 0/3 | 6.48s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 2.9 | 6.4 | 0/3 | 24.7s |
| #75 | GLM 5.1 none | Z.ai | 2.9 | 5.6 | 0/3 | 1.99s |
| #9 | Qwen3.6 Plus Preview medium | Qwen | 3.0 | 8.5 | 0/3 | 22.1s |
| #17 | Gemini 3.1 Flash Lite Preview medium | 3.0 | 8.2 | 0/3 | 4.21s | |
| #35 | MiMo-V2-Omni medium | Xiaomi | 3.0 | 7.7 | 0/3 | 55.1s |