AI BENCHY زمرہ
ڈومین مخصوص درجہ بندی
دیکھیں کہ ڈومین مخصوص میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
| درجہ | ماڈل | کمپنی | ڈومین مخصوص اسکور | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #118 | Qwen3.6 27B none | Qwen | 7.7 | 5.6 | 2/3 | 3.03s |
| #44 | Gemini 3.1 Flash Lite medium | 2.9 | 7.5 | 0/3 | 3.16s | |
| #113 | DeepSeek V4 Pro none | DeepSeek | 5.3 | 5.7 | 1/3 | 3.17s |
| #85 | Gemma 4 31B none | 7.7 | 6.5 | 2/3 | 3.22s | |
| #3 | Gemini 3.5 Flash low | 7.7 | 9.4 | 2/3 | 3.39s | |
| #77 | Claude Sonnet 4.6 none | Anthropic | 7.7 | 6.8 | 2/3 | 3.54s |
| #133 | DeepSeek V3.2 none | DeepSeek | 2.9 | 5.2 | 0/3 | 4.17s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 3.0 | 7.5 | 0/3 | 4.21s | |
| #135 | Kimi K2.5 none | Moonshot AI | 5.3 | 5.2 | 1/3 | 4.38s |
| #114 | Qwen3.5 Plus 2026-04-20 none | Qwen | 5.3 | 5.7 | 1/3 | 4.43s |
| #138 | Ling-2.6-flash none | Inclusionai | 3.0 | 5.0 | 0/3 | 4.95s |
| #7 | Gemini 3.5 Flash medium | 7.7 | 9.0 | 2/3 | 5.24s | |
| #145 | Laguna M.1 none | Poolside | 3.6 | 4.8 | 0/3 | 5.50s |
| #132 | Mistral Small 4 medium | Mistral | 5.3 | 5.3 | 1/3 | 6.11s |
| #141 | Nemotron 3 Super none | NVIDIA | 3.6 | 4.9 | 0/3 | 6.23s |