AI BENCHY
Сравнить Графики Методология
❤️ Made by XCS
Your ad here

Сбои AI BENCHY

Сбои: Лишнее форматирование

Посмотрите, какие AI-модели чаще всего сталкиваются с Лишнее форматирование, чтобы заранее заметить риски надежности. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

6

Всего сбоев

13

Наиболее затронутая модель

MiMo-V2-Flash 1
Ранг Модель Компания Количество Лишнее форматирование Средний балл Тестов верно Время ответа (среднее)
#54 MiMo-V2-Flash none Xiaomi 1 2.9 3/16 2.97s
#25 Claude Sonnet 4.6 none Anthropic 3 6.8 10/16 5.57s
#11 Claude Sonnet 4.6 medium Anthropic 2 7.7 12/16 11.2s
#48 Qwen3 Coder Next none Qwen 1 4.0 4/16 11.7s
#33 DeepSeek V3.2 none DeepSeek 2 5.5 7/16 12.9s
#26 Claude Opus 4.6 medium Anthropic 4 6.6 10/16 22.9s

Лучшие модели по Количество Лишнее форматирование

Количество Лишнее форматирование vs средний балл

Лучшие модели по Время ответа (среднее)