AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Сбои по категориям AI BENCHY

Решение головоломок: Не соблюдены инструкции

Решение головоломок
Не соблюдены инструкции

Посмотрите, какие AI-модели чаще всего сталкиваются с Не соблюдены инструкции в Решение головоломок, чтобы быстрее находить слабые места.

Показано моделей

15

Всего сбоев

78

Наиболее затронутая модель

Gemini 3.1 Flash Lite 2
Ранг Модель Компания Количество Не соблюдены инструкции Оценка категории Тестов верно Время ответа (среднее)
#120 Mimo V2 PRO none Xiaomi 1 6.0 1/3 1.61s
#121 Owl Alpha none Openrouter 1 5.4 1/3 4.18s
#122 GLM 4.7 Flash none Z.ai 1 6.4 1/3 1.20s
#123 MiMo-V2.5-Pro none Xiaomi 1 6.7 1/3 1.30s
#124 Kimi K2.6 none Moonshot AI 1 3.1 0/3 1.40s
#125 GPT-5.4 none OpenAI 1 5.6 1/3 1.44s
#126 gpt-oss-120b none OpenAI 1 6.0 1/3 8.21s
#128 Qwen3.6 Flash none Qwen 1 3.5 0/3 1.21s
#130 MiniMax M2.7 medium Minimax 1 5.9 1/3 24.9s
#131 Qwen3.5-122B-A10B none Qwen 1 3.8 0/3 1.00s
#132 Mistral Small 4 medium Mistral 1 3.4 0/3 2.17s
#134 GLM 5 Turbo none Z.ai 1 5.5 1/3 2.65s
#136 Elephant Alpha medium Openrouter 1 5.3 1/3 868ms
#137 Elephant Alpha none Openrouter 1 4.2 0/3 807ms
#138 Ling-2.6-flash none Inclusionai 1 2.9 0/3 6.51s

Лучшие модели по Количество Не соблюдены инструкции

Количество Не соблюдены инструкции против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь