AI BENCHY زمرہ
معلومات عامہ درجہ بندی
دیکھیں کہ معلومات عامہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.
169/169
ماڈلز فلٹر کریں
موجودہ تلاش اور فلٹرز سے کوئی ماڈل مطابقت نہیں رکھتا۔
| درجہ | ماڈل | کمپنی | معلومات عامہ اسکور | اسکور | کل لاگت | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|---|
| #45 | GPT-5.3 Chat none | OpenAI | 3.0 | 7.5 | $0.433 | 0/1 | 4.38s |
| #46 | GPT-5.4 Nano medium | OpenAI | 3.0 | 7.5 | $0.107 | 0/1 | 4.81s |
| #47 | Qwen3.6 Flash medium | Qwen | 3.0 | 7.5 | $0.288 | 0/1 | 122.9s |
| #48 | DeepSeek V3.2 medium | DeepSeek | 3.0 | 7.5 | $0.044 | 0/1 | 84.0s |
| #49 | Claude Opus 4.7 none | Anthropic | 3.0 | 7.4 | $0.505 | 0/1 | 1.46s |
| #50 | Seed-2.0-Mini medium | Bytedance Seed | 3.0 | 7.4 | $0.044 | 0/1 | 56.8s |
| #51 | MiMo-V2.5-Pro medium | Xiaomi | 3.0 | 7.4 | $0.106 | 0/1 | 12.5s |
| #53 | Grok 4.20 medium | X AI | 3.0 | 7.3 | $0.609 | 0/1 | 63.5s |
| #54 | Hy3 preview medium | Tencent | 3.0 | 7.3 | $0.021 | 0/1 | 39.9s |
| #55 | Claude Sonnet 4.6 none | Anthropic | 3.0 | 7.3 | $0.316 | 0/1 | 4.67s |
| #56 | GLM 5V Turbo medium | Z.ai | 3.0 | 7.3 | $0.457 | 0/1 | 41.0s |
| #57 | Claude Opus 4.8 none | Anthropic | 3.0 | 7.2 | $0.539 | 0/1 | 3.41s |
| #58 | DeepSeek V4 Pro none | DeepSeek | 3.0 | 7.2 | $0.034 | 0/1 | 5.76s |
| #59 | Gemma 4 26B A4B medium | 3.0 | 7.2 | $0.045 | 0/1 | 180.9s | |
| #60 | Qwen3.7 Plus none | Qwen | 3.0 | 7.2 | $0.023 | 0/1 | 1.21s |