AI BENCHY
Advertise here

Сбои AI BENCHY

Сбои: Не соблюдены инструкции

Посмотрите, какие AI-модели чаще всего сталкиваются с Не соблюдены инструкции, чтобы заранее заметить риски надежности.

Показано моделей

15

Всего сбоев

216

Наиболее затронутая модель

MiniMax M2.7 5
Ранг Модель Компания Количество Не соблюдены инструкции Оценка Тестов верно Время ответа (среднее)
#62 GLM 5V Turbo medium Z.ai 1 7.4 11/20 20.2s
#65 Claude Opus 4.8 none Anthropic 1 7.3 12/20 3.51s
#66 Laguna M.1 medium Poolside 1 7.3 13/19 14.7s
#71 Claude Opus 4.6 medium Anthropic 1 7.2 12/20 25.5s
#75 Seed-2.0-Mini medium Bytedance Seed 1 7.1 11/20 80.2s
#77 MiMo-V2-Flash medium Xiaomi 1 7.1 11/20 20.3s
#78 Claude Sonnet 4.6 none Anthropic 1 7.0 11/20 5.27s
#83 Gemma 4 31B none Google 1 6.7 10/20 4.05s
#87 Qwen3.6 27B medium Qwen 1 6.6 9/20 57.8s
#90 Gemini 3.1 Flash Lite none Google 1 6.6 9/20 1.09s
#100 MiMo-V2-Omni none Xiaomi 1 6.2 8/20 2.44s
#111 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#118 GLM 4.7 Flash none Z.ai 1 5.6 6/20 3.01s
#120 GPT-5.4 none OpenAI 1 5.6 7/20 1.45s
#122 Qwen3.6 Flash none Qwen 1 5.5 7/20 1.65s

Лучшие модели по Количество Не соблюдены инструкции

Количество Не соблюдены инструкции против Оценка

Лучшие модели по Время ответа (среднее)