AI BENCHY
Advertise here

Сбои AI BENCHY

Сбои: Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ, чтобы заранее заметить риски надежности. Сортировать по: Число сбоев ↑.

Показано моделей

15

Всего сбоев

1204

Наиболее затронутая модель

Gemini 3 Flash Preview 1
Ранг Модель Компания Количество Неверный ответ Оценка Тестов верно Время ответа (среднее)
#92 Laguna M.1 medium Poolside 4 6.4 9/19 14.7s
#103 DeepSeek V4 Pro high DeepSeek 4 6.0 8/21 65.2s
#14 Qwen3.6 Max Preview medium Qwen 5 8.5 16/21 59.6s
#16 Gemini 3 Flash Preview low Google 5 8.4 16/21 5.76s
#18 Qwen3.7 Plus medium Qwen 5 8.2 15/21 38.9s
#19 Seed-2.0-Lite medium Bytedance Seed 5 8.2 14/21 47.1s
#21 GPT-5.4 medium OpenAI 5 8.0 14/21 22.3s
#22 Step 3.7 Flash medium Stepfun 5 8.0 14/21 20.4s
#26 Qwen3.6 Plus medium Qwen 5 7.9 14/21 30.7s
#29 Qwen3.5-122B-A10B medium Qwen 5 7.8 14/21 42.5s
#32 Gemini 3.5 Flash minimal Google 5 7.7 14/21 1.57s
#38 Grok 4.3 medium X AI 5 7.6 13/21 47.5s
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#51 Mimo V2 PRO medium Xiaomi 5 7.4 12/21 22.2s
#54 GPT-5 Mini medium OpenAI 5 7.3 12/21 23.6s

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)