Сбои по категориям AI BENCHY
Вызов инструментов: Не соблюдены инструкции
Вызов инструментов
Не соблюдены инструкции
Посмотрите, какие AI-модели чаще всего сталкиваются с Не соблюдены инструкции в Вызов инструментов, чтобы быстрее находить слабые места. Сортировать по: Время ответа (среднее) ↑.
Причины сбоев
| Ранг | Модель | Компания | Количество Не соблюдены инструкции | Оценка категории | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|
| #86 | GPT-5.4 Mini none | OpenAI | 1 | 3.0 | 0/1 | 2.32s |
| #44 | GPT-5.4 Mini medium | OpenAI | 1 | 4.7 | 0/1 | 9.62s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 12.0s |
| #25 | Grok 4.20 Beta medium | X AI | 1 | 3.0 | 0/1 | 12.4s |
| #47 | Grok 4.20 medium | X AI | 1 | 3.0 | 0/1 | 13.7s |
| #88 | Nemotron 3 Super none | NVIDIA | 1 | 4.7 | 0/1 | 16.0s |