Сбои AI BENCHY
Сбои: Не соблюдены инструкции
Посмотрите, какие AI-модели чаще всего сталкиваются с Не соблюдены инструкции, чтобы заранее заметить риски надежности.
| Ранг | Модель | Компания | Количество Не соблюдены инструкции | Оценка | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|
| #62 | GLM 5V Turbo medium | Z.ai | 1 | 7.4 | 11/20 | 20.2s |
| #65 | Claude Opus 4.8 none | Anthropic | 1 | 7.3 | 12/20 | 3.51s |
| #66 | Laguna M.1 medium | Poolside | 1 | 7.3 | 13/19 | 14.7s |
| #71 | Claude Opus 4.6 medium | Anthropic | 1 | 7.2 | 12/20 | 25.5s |
| #75 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 7.1 | 11/20 | 80.2s |
| #77 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.1 | 11/20 | 20.3s |
| #78 | Claude Sonnet 4.6 none | Anthropic | 1 | 7.0 | 11/20 | 5.27s |
| #83 | Gemma 4 31B none | 1 | 6.7 | 10/20 | 4.05s | |
| #87 | Qwen3.6 27B medium | Qwen | 1 | 6.6 | 9/20 | 57.8s |
| #90 | Gemini 3.1 Flash Lite none | 1 | 6.6 | 9/20 | 1.09s | |
| #100 | MiMo-V2-Omni none | Xiaomi | 1 | 6.2 | 8/20 | 2.44s |
| #111 | Grok 4.20 Beta none | X AI | 1 | 5.8 | 6/18 | 1.19s |
| #118 | GLM 4.7 Flash none | Z.ai | 1 | 5.6 | 6/20 | 3.01s |
| #120 | GPT-5.4 none | OpenAI | 1 | 5.6 | 7/20 | 1.45s |
| #122 | Qwen3.6 Flash none | Qwen | 1 | 5.5 | 7/20 | 1.65s |