AI BENCHY
Your ad here

Сбои AI BENCHY

Сбои: Не соблюдены инструкции

Посмотрите, какие AI-модели чаще всего сталкиваются с Не соблюдены инструкции, чтобы заранее заметить риски надежности. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

5

Всего сбоев

180

Наиболее затронутая модель

Mercury 2 1
Ранг Модель Компания Количество Не соблюдены инструкции Оценка Тестов верно Время ответа (среднее)
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#11 Gemini 3.1 Flash Lite Preview high Google 1 8.4 12/16 68.8s
#39 Seed-2.0-Mini medium Bytedance Seed 1 7.5 11/18 69.7s
#46 Kimi K2.5 medium Moonshot AI 2 7.0 9/18 72.4s
#97 Qwen3.5-9B medium Qwen 2 4.4 3/18 73.6s

Лучшие модели по Количество Не соблюдены инструкции

Количество Не соблюдены инструкции против Оценка

Лучшие модели по Время ответа (среднее)