Сбои AI BENCHY
Сбои: Неверный ответ
Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ, чтобы заранее заметить риски надежности.
Категории
В категории Предметно-ориентированное288 В категории Анти-ИИ уловки230 В категории Решение головоломок145 В категории Эрудиция119 В категории Следование инструкциям51 В категории Комбинированный50 В категории Программирование41 В категории Парсинг и извлечение данных31 В категории Общий интеллект26 В категории Вызов инструментов2
| Ранг | Модель | Компания | Количество Неверный ответ | Оценка | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|
| #133 | Mercury 2 none | Inception | 14 | 4.7 | 4/19 | 610ms |
| #137 | GPT-5.4 Nano none | OpenAI | 14 | 4.5 | 3/19 | 1.36s |
| #114 | Kimi K2.5 none | Moonshot AI | 13 | 5.4 | 6/19 | 12.6s |
| #126 | Mistral Small 4 none | Mistral | 13 | 5.1 | 5/19 | 651ms |
| #129 | GPT-4o-mini none | OpenAI | 13 | 4.9 | 5/19 | 1.90s |
| #139 | MiMo-V2-Flash none | Xiaomi | 13 | 4.5 | 3/19 | 2.73s |
| #141 | Grok 4.1 Fast none | X AI | 13 | 4.4 | 3/19 | 1.67s |
| #123 | Qwen3 Coder Next none | Qwen | 12 | 5.2 | 5/19 | 9.44s |
| #124 | Nemotron 3 Super none | NVIDIA | 12 | 5.2 | 5/19 | 5.80s |
| #130 | MiMo-V2.5 none | Xiaomi | 12 | 4.9 | 4/19 | 2.02s |
| #132 | Trinity Large Preview none | Arcee AI | 12 | 4.8 | 4/19 | 3.03s |
| #134 | Qwen3.5-9B none | Qwen | 12 | 4.7 | 4/19 | 1.51s |
| #140 | Ling-2.6-1T none | Inclusionai | 12 | 4.5 | 4/19 | 8.79s |
| #144 | Granite 4.1 8B none | IBM Granite | 12 | 4.1 | 2/19 | 743ms |
| #88 | Seed-2.0-Lite none | Bytedance Seed | 11 | 6.0 | 8/19 | 2.50s |