Категория AI BENCHY
Рейтинг Следование инструкциям
Посмотрите, какие AI-модели лучше всего справляются с Следование инструкциям, какие остаются надежными и где заметнее всего разница.
Показано моделей
15
Среднее значение Оценка Следование инструкциям
8.5
Лучшая модель
Gemini 3 Flash Preview 10.0| Ранг | Модель | Компания | Оценка Следование инструкциям | Оценка | Тестов верно | Время ответа (среднее) |
|---|---|---|---|---|---|---|
| #142 | Mistral Small 4 none | Mistral | 6.5 | 4.9 | 1/2 | 380ms |
| #143 | MiMo-V2.5 none | Xiaomi | 6.5 | 4.9 | 1/2 | 751ms |
| #146 | Laguna Xs.2 none | Poolside | 6.5 | 4.8 | 1/2 | 439ms |
| #152 | MiMo-V2-Flash none | Xiaomi | 6.5 | 4.6 | 1/2 | 857ms |
| #154 | Qwen3.5-9B none | Qwen | 6.5 | 4.6 | 1/2 | 514ms |
| #155 | Mercury 2 none | Inception | 6.5 | 4.5 | 1/2 | 551ms |
| #161 | Qwen3.5-9B medium | Qwen | 6.5 | 4.2 | 1/2 | 5.75s |
| #32 | Gemini 3.5 Flash minimal | 6.4 | 7.7 | 1/2 | 893ms | |
| #48 | Gemini 3 Flash Preview none | 6.4 | 7.4 | 1/2 | 1.58s | |
| #55 | GLM 5.1 medium | Z.ai | 6.4 | 7.3 | 1/2 | 7.47s |
| #116 | Hunter Alpha none | OpenRouter | 6.4 | 5.7 | 1/2 | 2.82s |
| #121 | Owl Alpha none | Openrouter | 6.4 | 5.5 | 1/2 | 2.63s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 6.4 | 5.5 | 1/2 | 1.03s |
| #159 | Ling-2.6-1T none | Inclusionai | 6.4 | 4.3 | 1/2 | 5.36s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 6.3 | 5.7 | 1/2 | 8.23s |