AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Сбои по категориям AI BENCHY

Программирование: Неверный ответ

Программирование
Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Программирование, чтобы быстрее находить слабые места.

Показано моделей

15

Всего сбоев

120

Наиболее затронутая модель

Qwen3.6 Flash 2
Ранг Модель Компания Количество Неверный ответ Оценка категории Тестов верно Время ответа (среднее)
#85 Gemini 3.1 Flash Lite none Google 1 6.8 1/2 1.13s
#86 GPT-5.5 none OpenAI 1 6.8 1/2 1.52s
#90 Mercury 2 medium Inception 1 7.2 1/2 2.29s
#91 Gemma 4 26B A4B none Google 1 4.1 0/2 3.83s
#92 Gemini 2.5 Flash none Google 1 6.8 1/2 810ms
#93 MiMo-V2-Omni none Xiaomi 1 5.1 0/2 2.75s
#97 Qwen3.5-Flash none Qwen 1 6.8 1/2 993ms
#98 GLM 5V Turbo none Z.ai 1 6.8 1/2 3.77s
#99 Seed-2.0-Lite none Bytedance Seed 1 6.8 1/2 2.95s
#101 Qwen3.5 Plus 2026-04-20 none Qwen 1 4.4 0/2 2.08s
#102 Qwen3.5-35B-A3B none Qwen 1 6.8 1/2 1.72s
#103 Qwen3.5-27B none Qwen 1 7.3 1/2 1.98s
#104 Qwen3.6 27B none Qwen 1 6.8 1/2 5.75s
#105 Cobuddy medium Baidu 1 4.1 0/2 79.2s
#107 MiMo-V2-Pro none Xiaomi 1 6.8 1/2 2.65s

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь