AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Сбои по категориям AI BENCHY

Программирование: Неверный ответ

Программирование
Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Программирование, чтобы быстрее находить слабые места. Сортировать по: Тестов верно ↑.

Показано моделей

15

Всего сбоев

120

Наиболее затронутая модель

Qwen3.6 Plus 1
Ранг Модель Компания Количество Неверный ответ Оценка категории Тестов верно Время ответа (среднее)
#33 Qwen3.6 Plus medium Qwen 1 4.1 0/2 201.7s
#38 Qwen3.5-122B-A10B medium Qwen 1 4.1 0/2 119.6s
#45 Grok Build 0.1 medium X AI 1 5.3 0/2 67.4s
#56 Qwen3.5-Flash medium Qwen 1 4.1 0/2 54.2s
#59 Qwen3.6 Flash medium Qwen 2 5.1 0/2 51.9s
#66 Qwen3.6 Max Preview none Qwen 2 4.2 0/2 3.06s
#67 MiMo-V2-Flash medium Xiaomi 1 4.1 0/2 7.20s
#71 DeepSeek V3.2 medium DeepSeek 1 3.9 0/2 185.0s
#72 MiMo-V2-Omni medium Xiaomi 1 3.4 0/2 183.9s
#77 Grok 4.20 medium X AI 2 4.1 0/2 65.1s
#84 Laguna Xs.2 medium Poolside 1 6.3 0/1 14.4s
#88 Qwen3.5 Plus 2026-02-15 none Qwen 2 4.9 0/2 2.54s
#89 GLM 5 none Z.ai 2 4.6 0/2 5.18s
#91 Gemma 4 26B A4B none Google 1 4.1 0/2 3.83s
#93 MiMo-V2-Omni none Xiaomi 1 5.1 0/2 2.75s

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь