AI BENCHY زمرہ
معلومات عامہ درجہ بندی
دیکھیں کہ معلومات عامہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | معلومات عامہ اسکور | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #60 | GPT-5.4 Mini medium | OpenAI | 3.0 | 7.2 | 0/1 | 30.1s |
| #21 | Qwen3.6 35B A3B medium | Qwen | 3.0 | 8.0 | 0/1 | 32.9s |
| #90 | Qwen3.5 Plus 2026-04-20 none | Qwen | 3.0 | 5.9 | 0/1 | 33.3s |
| #95 | Cobuddy medium | Baidu | 3.0 | 5.8 | 0/1 | 37.0s |
| #4 | GPT-5.5 medium | OpenAI | 2.8 | 8.9 | 0/1 | 37.9s |
| #65 | DeepSeek V4 Pro high | DeepSeek | 3.0 | 6.9 | 0/1 | 39.1s |
| #34 | HY3 Preview medium | Tencent | 3.0 | 7.8 | 0/1 | 39.9s |
| #20 | GLM 5 Turbo medium | Z.ai | 3.0 | 8.1 | 0/1 | 40.2s |
| #49 | GLM 5V Turbo medium | Z.ai | 3.0 | 7.5 | 0/1 | 41.0s |
| #39 | HY3 Preview low | Tencent | 3.0 | 7.7 | 0/1 | 41.7s |
| #24 | Grok 4.3 medium | X AI | 3.0 | 8.0 | 0/1 | 44.5s |
| #119 | gpt-oss-120b none | OpenAI | 3.0 | 5.2 | 0/1 | 47.3s |
| #28 | Qwen3.6 Plus medium | Qwen | 3.0 | 7.9 | 0/1 | 47.5s |
| #22 | HY3 Preview high | Tencent | 3.0 | 8.0 | 0/1 | 47.7s |
| #11 | Seed-2.0-Lite medium | Bytedance Seed | 3.0 | 8.3 | 0/1 | 48.3s |