AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Категория AI BENCHY

Рейтинг Следование инструкциям

Посмотрите, какие AI-модели лучше всего справляются с Следование инструкциям, какие остаются надежными и где заметнее всего разница.

Показано моделей

15

Среднее значение Оценка Следование инструкциям

8.5

Лучшая модель

Gemini 3 Flash Preview 10.0
Ранг Модель Компания Оценка Следование инструкциям Оценка Тестов верно Время ответа (среднее)
#142 Mistral Small 4 none Mistral 6.5 4.9 1/2 380ms
#143 MiMo-V2.5 none Xiaomi 6.5 4.9 1/2 751ms
#146 Laguna Xs.2 none Poolside 6.5 4.8 1/2 439ms
#152 MiMo-V2-Flash none Xiaomi 6.5 4.6 1/2 857ms
#154 Qwen3.5-9B none Qwen 6.5 4.6 1/2 514ms
#155 Mercury 2 none Inception 6.5 4.5 1/2 551ms
#161 Qwen3.5-9B medium Qwen 6.5 4.2 1/2 5.75s
#32 Gemini 3.5 Flash minimal Google 6.4 7.7 1/2 893ms
#48 Gemini 3 Flash Preview none Google 6.4 7.4 1/2 1.58s
#55 GLM 5.1 medium Z.ai 6.4 7.3 1/2 7.47s
#116 Hunter Alpha none OpenRouter 6.4 5.7 1/2 2.82s
#121 Owl Alpha none Openrouter 6.4 5.5 1/2 2.63s
#123 MiMo-V2.5-Pro none Xiaomi 6.4 5.5 1/2 1.03s
#159 Ling-2.6-1T none Inclusionai 6.4 4.3 1/2 5.36s
#113 DeepSeek V4 Pro none DeepSeek 6.3 5.7 1/2 8.23s

Лучшие модели по Оценка Следование инструкциям

Оценка Следование инструкциям vs общая стоимость

Лучшие модели по Время ответа (среднее)