AI BENCHY
Сравнить Графики Методология
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Сбои по категориям AI BENCHY

Общий интеллект
Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Общий интеллект, чтобы быстрее находить слабые места. Сортировать по: Число сбоев ↑.

Показано моделей

6

Всего сбоев

6

Наиболее затронутая модель

Qwen3.5 Plus 2026-02-15 1
Ранг Модель Компания Количество Неверный ответ Оценка категории Тестов верно Время ответа (среднее)
#29 Qwen3.5 Plus 2026-02-15 none Qwen 1 4.0 0/1 2.26s
#38 Gemini 2.5 Flash none Google 1 5.0 0/1 615ms
#44 GPT-5.4 none OpenAI 1 3.0 0/1 1.78s
#47 GPT-4o-mini none OpenAI 1 3.0 0/1 909ms
#49 GLM 4.7 Flash none Z.ai 1 3.0 0/1 1.59s
#52 GLM 4.7 Flash medium Z.ai 1 10.0 0/1 18.1s

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ vs средний балл

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь