Сбои по категориям AI BENCHY
Следование инструкциям: Лишнее форматирование
Следование инструкциям
Лишнее форматирование
Посмотрите, какие AI-модели чаще всего сталкиваются с Лишнее форматирование в Следование инструкциям, чтобы быстрее находить слабые места. Сортировать по: Тестов верно ↑.
Причины сбоев
| Ранг | Модель | Компания | Количество Лишнее форматирование | Оценка категории | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|
| #92 | DeepSeek V4 Flash none | DeepSeek | 1 | 6.5 | 1/2 | 17.5s |
| #108 | HY3 Preview none | Tencent | 1 | 6.3 | 1/2 | 13.0s |