Сбои по категориям AI BENCHY
Программирование: Неверный ответ
Программирование
Неверный ответ
Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Программирование, чтобы быстрее находить слабые места.
Причины сбоев
| Ранг | Модель | Компания | Количество Неверный ответ | Оценка категории | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|
| #50 | Gemini 3.1 Flash Lite low | 1 | 6.8 | 1/2 | 1.71s | |
| #52 | GPT-5.3 Chat none | OpenAI | 1 | 6.9 | 1/2 | 10.5s |
| #53 | MiMo-V2.5 medium | Xiaomi | 1 | 6.9 | 1/2 | 64.5s |
| #55 | DeepSeek V4 Flash high | DeepSeek | 1 | 6.8 | 1/2 | 58.1s |
| #56 | Qwen3.5-Flash medium | Qwen | 1 | 4.1 | 0/2 | 54.2s |
| #60 | GLM 5V Turbo medium | Z.ai | 1 | 6.8 | 1/2 | 54.8s |
| #64 | GPT-5.4 Nano medium | OpenAI | 1 | 6.8 | 1/2 | 21.1s |
| #65 | GPT-5.4 Mini medium | OpenAI | 1 | 7.5 | 1/2 | 73.3s |
| #67 | MiMo-V2-Flash medium | Xiaomi | 1 | 4.1 | 0/2 | 7.20s |
| #68 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 6.8 | 1/2 | 220.5s |
| #71 | DeepSeek V3.2 medium | DeepSeek | 1 | 3.9 | 0/2 | 185.0s |
| #72 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.4 | 0/2 | 183.9s |
| #76 | Gemma 4 31B none | 1 | 6.8 | 1/2 | 14.8s | |
| #78 | Gemini 3.1 Flash Lite minimal | 1 | 6.8 | 1/2 | 951ms | |
| #84 | Laguna Xs.2 medium | Poolside | 1 | 6.3 | 0/1 | 14.4s |