AI BENCHY زمرہ ناکامیاں
ہدایات کی پیروی: غلط جواب
ہدایات کی پیروی
غلط جواب
دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #134 | GLM 5 Turbo none | Z.ai | 1 | 6.5 | 1/2 | 2.13s |
| #135 | Kimi K2.5 none | Moonshot AI | 1 | 6.5 | 1/2 | 2.67s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 6.3 | 1/2 | 7.78s |
| #141 | Nemotron 3 Super none | NVIDIA | 1 | 6.3 | 1/2 | 804ms |
| #142 | Mistral Small 4 none | Mistral | 1 | 6.5 | 1/2 | 380ms |
| #143 | MiMo-V2.5 none | Xiaomi | 1 | 6.5 | 1/2 | 751ms |
| #144 | GPT-5.4 Mini none | OpenAI | 1 | 6.3 | 1/2 | 728ms |
| #145 | Laguna M.1 none | Poolside | 1 | 6.3 | 1/2 | 683ms |
| #146 | Laguna Xs.2 none | Poolside | 1 | 6.5 | 1/2 | 439ms |
| #147 | GPT-4o-mini none | OpenAI | 1 | 6.3 | 1/2 | 1.11s |
| #148 | GPT-5.4 Nano none | OpenAI | 1 | 6.3 | 1/2 | 784ms |
| #150 | Qwen3 Coder Next medium | Qwen | 1 | 6.3 | 1/2 | 7.49s |
| #151 | Trinity Large Preview none | Arcee AI | 1 | 3.5 | 0/2 | 822ms |
| #152 | MiMo-V2-Flash none | Xiaomi | 1 | 6.5 | 1/2 | 857ms |
| #153 | Qwen3.6 35B A3B none | Qwen | 1 | 6.2 | 1/2 | 1.86s |