AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Сбои по категориям AI BENCHY

Эрудиция: Неверный ответ

Эрудиция
Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Эрудиция, чтобы быстрее находить слабые места. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

15

Всего сбоев

133

Наиболее затронутая модель

Qwen3.5-122B-A10B 1
133/133
Ранг Модель Компания Количество Неверный ответ Оценка категории Общая стоимость Тестов верно Время ответа (среднее)

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь