Сбои AI BENCHY
Сбои: Не соблюдены инструкции
Посмотрите, какие AI-модели чаще всего сталкиваются с Не соблюдены инструкции, чтобы заранее заметить риски надежности.
| Ранг | Модель | Компания | Количество Не соблюдены инструкции | Оценка | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|
| #131 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 5.4 | 10/19 | 17.1s |
| #134 | Laguna Xs.2 none | Poolside | 1 | 5.3 | 9/19 | 806ms |
| #137 | DeepSeek V4 Flash none | DeepSeek | 1 | 5.1 | 5/20 | 28.0s |
| #138 | Qwen3 Coder Next none | Qwen | 1 | 5.1 | 5/20 | 9.05s |
| #140 | Mistral Small 4 none | Mistral | 1 | 5.0 | 5/20 | 629ms |
| #141 | MiMo-V2.5 none | Xiaomi | 1 | 5.0 | 5/20 | 2.20s |
| #144 | GPT-4o-mini none | OpenAI | 1 | 4.9 | 5/20 | 1.85s |
| #151 | Mercury 2 none | Inception | 1 | 4.6 | 4/20 | 614ms |
| #156 | Qwen3.5-9B medium | Qwen | 1 | 4.2 | 3/20 | 83.3s |
| #157 | LFM2-24B-A2B none | Liquid | 1 | 4.2 | 2/16 | 782ms |