Сбои по категориям AI BENCHY
Комбинированный
Недопустимый вызов инструмента
Комбинированный
Недопустимый вызов инструмента
Посмотрите, какие AI-модели чаще всего сталкиваются с Недопустимый вызов инструмента в Комбинированный, чтобы быстрее находить слабые места. Сортировать по: Тестов верно ↓.
Связанные причины сбоев
Связанные категории
| Ранг | Модель | Компания | Количество Недопустимый вызов инструмента | Оценка категории | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 8.0 | 0/1 | 115.9s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 10.0 | 0/1 | 60.4s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 3.22s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 10.0 | 0/1 | 65.6s |