AI BENCHY
Your ad here

Сбои по категориям AI BENCHY

Комбинированный: Неверный ответ

Комбинированный
Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Комбинированный, чтобы быстрее находить слабые места.

Показано моделей

15

Всего сбоев

37

Наиболее затронутая модель

Gemini 3 Flash Preview 1
Ранг Модель Компания Количество Неверный ответ Оценка категории Тестов верно Время ответа (среднее)
#65 MiMo-V2-Pro none Xiaomi 1 3.0 0/1 6.58s
#66 GPT-5.4 none OpenAI 1 3.0 0/1 2.89s
#67 Qwen3.5-27B none Qwen 1 2.8 0/1 9.39s
#69 Kimi K2.6 none Moonshot AI 1 3.0 0/1 3.38s
#70 Qwen3.5-122B-A10B none Qwen 1 3.0 0/1 46.0s
#72 Hunter Alpha none OpenRouter 1 3.0 0/1 15.2s
#73 Mistral Small 4 medium Mistral 1 3.0 0/1 25.3s
#76 Kimi K2.5 none Moonshot AI 1 2.8 0/1 19.2s
#77 GLM 5 Turbo none Z.ai 1 3.0 0/1 4.89s
#78 Trinity Large Preview none Arcee AI 1 3.0 0/1 8.91s
#81 Elephant medium Openrouter 1 3.0 0/1 3.70s
#83 Mistral Small 4 none Mistral 1 3.0 0/1 1.72s
#85 Elephant none Openrouter 1 3.0 0/1 3.81s
#86 GPT-5.4 Mini none OpenAI 1 3.0 0/1 2.52s
#87 Qwen3 Coder Next none Qwen 1 3.0 0/1 45.1s

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь