AI BENCHY
Advertise here

Сбои AI BENCHY

Сбои: Лишнее форматирование

Посмотрите, какие AI-модели чаще всего сталкиваются с Лишнее форматирование, чтобы заранее заметить риски надежности. Сортировать по: Число сбоев ↑.

Показано моделей

14

Всего сбоев

48

Наиболее затронутая модель

Qwen3.5-27B 1
Ранг Модель Компания Количество Лишнее форматирование Оценка Тестов верно Время ответа (среднее)
#152 MiMo-V2-Flash none Xiaomi 1 4.6 4/21 2.76s
#156 Hy3 preview none Tencent 1 4.4 4/21 12.9s
#161 Qwen3.5-9B medium Qwen 1 4.2 3/21 82.2s
#163 Granite 4.1 8B none IBM Granite 1 4.0 2/21 728ms
#56 MiMo-V2.5 medium Xiaomi 2 7.3 12/21 27.1s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 6.6 8/18 9.69s
#133 DeepSeek V3.2 none DeepSeek 2 5.2 6/21 13.8s
#139 DeepSeek V4 Flash none DeepSeek 2 5.0 5/21 26.8s
#43 MiMo-V2.5-Pro medium Xiaomi 3 7.5 12/21 26.1s
#47 Grok Build 0.1 medium X AI 3 7.4 13/21 49.9s
#52 Claude Sonnet 4.6 medium Anthropic 3 7.4 13/21 17.1s
#68 Claude Opus 4.8 none Anthropic 3 7.0 12/21 3.47s
#77 Claude Sonnet 4.6 none Anthropic 4 6.8 11/21 5.04s
#69 Claude Opus 4.6 medium Anthropic 5 7.0 12/21 25.9s

Лучшие модели по Количество Лишнее форматирование

Количество Лишнее форматирование против Оценка

Лучшие модели по Время ответа (среднее)