Сбои AI BENCHY
Сбои: Неверный ответ
Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ, чтобы заранее заметить риски надежности.
Категории
В категории Предметно-ориентированное298 В категории Анти-ИИ уловки235 В категории Решение головоломок148 В категории Эрудиция127 В категории Программирование120 В категории Следование инструкциям52 В категории Комбинированный51 В категории Парсинг и извлечение данных32 В категории Общий интеллект27 В категории Вызов инструментов2
| Ранг | Модель | Компания | Количество Неверный ответ | Оценка | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|
| #1 | Gemini 3 Flash Preview medium | 1 | 9.8 | 19/20 | 16.7s | |
| #2 | Gemini 3.5 Flash high | 1 | 9.6 | 19/20 | 8.30s | |
| #32 | Step 3.5 Flash none | Stepfun | 1 | 7.8 | 9/12 | 39.0s |