AI BENCHY زمرہ ناکامیاں
ڈومین مخصوص: غلط جواب
ڈومین مخصوص
غلط جواب
دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #13 | GLM 5 medium | Z.ai | 2 | 3.5 | 0/3 | 0ms |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |
| #98 | LFM2-24B-A2B none | Liquid | 1 | 5.9 | 1/3 | 287ms |
| #83 | Mistral Small 4 none | Mistral | 2 | 5.3 | 1/3 | 367ms |
| #90 | Qwen3.5-9B none | Qwen | 3 | 3.0 | 0/3 | 464ms |
| #70 | Qwen3.5-122B-A10B none | Qwen | 2 | 5.3 | 1/3 | 465ms |
| #63 | Qwen3.5-35B-A3B none | Qwen | 1 | 7.7 | 2/3 | 485ms |
| #62 | Gemini 2.5 Flash none | 2 | 5.9 | 1/3 | 495ms | |
| #91 | Mercury 2 none | Inception | 2 | 5.3 | 1/3 | 534ms |
| #67 | Qwen3.5-27B none | Qwen | 3 | 3.0 | 0/3 | 540ms |
| #94 | MiMo-V2-Flash none | Xiaomi | 2 | 5.3 | 1/3 | 564ms |
| #79 | Grok 4.20 Beta none | X AI | 3 | 3.0 | 0/3 | 611ms |
| #89 | GPT-4o-mini none | OpenAI | 3 | 3.0 | 0/3 | 637ms |
| #92 | Qwen3 Coder Next medium | Qwen | 2 | 5.3 | 1/3 | 638ms |
| #82 | Grok 4.20 none | X AI | 2 | 3.0 | 0/3 | 687ms |