Сбои по категориям AI BENCHY
Программирование: Не соблюдены инструкции
Программирование
Не соблюдены инструкции
Посмотрите, какие AI-модели чаще всего сталкиваются с Не соблюдены инструкции в Программирование, чтобы быстрее находить слабые места. Сортировать по: Тестов верно ↓.
Причины сбоев
| Ранг | Модель | Компания | Количество Не соблюдены инструкции | Оценка категории | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|
| #49 | Grok 4.1 Fast medium | X AI | 1 | 2.3 | 0/1 | 23.6s |
| #91 | Qwen3.5-9B medium | Qwen | 1 | 2.6 | 0/1 | 135.6s |