AI BENCHY
Advertise here

Сбои по категориям AI BENCHY

Эрудиция: Нет ответа

Эрудиция
Нет ответа

Посмотрите, какие AI-модели чаще всего сталкиваются с Нет ответа в Эрудиция, чтобы быстрее находить слабые места. Сортировать по: Тестов верно ↑.

Показано моделей

6

Всего сбоев

6

Наиболее затронутая модель

Claude Opus 4.8 1
Ранг Модель Компания Количество Нет ответа Оценка категории Тестов верно Время ответа (среднее)
#10 Claude Opus 4.8 medium Anthropic 1 3.0 0/1 6.14s
#22 Step 3.7 Flash medium Stepfun 1 3.0 0/1 114.0s
#57 Step 3.7 Flash low Stepfun 1 3.0 0/1 124.8s
#67 MiniMax M3 medium Minimax 1 3.0 0/1 100.8s
#68 Claude Opus 4.8 none Anthropic 1 3.0 0/1 3.41s
#71 Step 3.7 Flash high Stepfun 1 3.0 0/1 149.3s

Лучшие модели по Количество Нет ответа

Количество Нет ответа против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь