AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Сбои по категориям AI BENCHY

Эрудиция: Нет ответа

Эрудиция
Нет ответа

Посмотрите, какие AI-модели чаще всего сталкиваются с Нет ответа в Эрудиция, чтобы быстрее находить слабые места. Сортировать по: Время ответа (среднее) ↓.

Показано моделей

6

Всего сбоев

6

Наиболее затронутая модель

Step 3.7 Flash 1
Ранг Модель Компания Количество Нет ответа Оценка категории Тестов верно Время ответа (среднее)
#71 Step 3.7 Flash high Stepfun 1 3.0 0/1 149.3s
#57 Step 3.7 Flash low Stepfun 1 3.0 0/1 124.8s
#22 Step 3.7 Flash medium Stepfun 1 3.0 0/1 114.0s
#67 MiniMax M3 medium Minimax 1 3.0 0/1 100.8s
#10 Claude Opus 4.8 medium Anthropic 1 3.0 0/1 6.14s
#68 Claude Opus 4.8 none Anthropic 1 3.0 0/1 3.41s

Лучшие модели по Количество Нет ответа

Количество Нет ответа против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь