AI BENCHY زمرہ ناکامیاں
ڈومین مخصوص: غلط جواب
ڈومین مخصوص
غلط جواب
دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 5.3 | 1/3 | 34.5s |
| #65 | Grok 4.20 medium | X AI | 1 | 5.3 | 1/3 | 27.0s |
| #66 | Qwen3.5-35B-A3B medium | Qwen | 1 | 4.1 | 0/3 | 88.3s |
| #69 | Claude Opus 4.6 medium | Anthropic | 1 | 3.0 | 0/3 | 83.4s |
| #74 | Qwen3.6 Max Preview none | Qwen | 1 | 7.7 | 2/3 | 1.22s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.7 | 2/3 | 3.54s |
| #79 | Hunter Alpha medium | OpenRouter | 1 | 3.0 | 0/3 | 10.5s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 3.0 | 0/3 | 47.9s |
| #85 | Gemma 4 31B none | 1 | 7.7 | 2/3 | 3.22s | |
| #86 | Grok 4.1 Fast medium | X AI | 1 | 5.8 | 1/3 | 121.8s |
| #94 | GPT-5 Nano medium | OpenAI | 1 | 5.2 | 1/3 | 204.0s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 1 | 2.9 | 0/3 | 205.7s |
| #108 | Qwen3.5-Flash none | Qwen | 1 | 7.7 | 2/3 | 905ms |
| #117 | Qwen3.5-35B-A3B none | Qwen | 1 | 7.7 | 2/3 | 485ms |
| #118 | Qwen3.6 27B none | Qwen | 1 | 7.7 | 2/3 | 3.03s |