AI BENCHY
Advertise here

Категория AI BENCHY

Рейтинг Следование инструкциям

Посмотрите, какие AI-модели лучше всего справляются с Следование инструкциям, какие остаются надежными и где заметнее всего разница. Сортировать по: Метрика ↑.

Показано моделей

15

Среднее значение Оценка Следование инструкциям

8.5

Лучшая модель

Grok 4.1 Fast 3.0
Ранг Модель Компания Оценка Следование инструкциям Оценка Тестов верно Время ответа (среднее)
#132 Mistral Small 4 medium Mistral 7.3 5.3 1/2 1.38s
#129 MiniMax M2.5 medium Minimax 7.5 5.3 1/2 621ms
#62 Step 3.5 Flash medium Stepfun 8.3 7.2 1/2 4.78s
#80 Mimo V2 Omni medium Xiaomi 8.3 6.7 1/2 4.99s
#12 Gemini 3.1 Flash Lite Preview high Google 9.8 8.6 2/2 64.0s
#13 Grok 4.20 Beta medium X AI 9.8 8.5 2/2 4.89s
#22 Step 3.7 Flash medium Stepfun 9.8 8.0 2/2 1.83s
#24 GPT-5.2 Chat none OpenAI 9.8 7.9 2/2 5.51s
#28 Gemini 2.5 Flash medium Google 9.8 7.8 2/2 2.62s
#35 Gemini 3 PRO Preview medium Google 9.8 7.6 2/2 3.26s
#41 Nemotron 3 Ultra 550b A55b medium NVIDIA 9.8 7.5 2/2 6.35s
#45 GPT-5.4 Mini medium OpenAI 9.8 7.5 2/2 2.13s
#57 Step 3.7 Flash low Stepfun 9.8 7.3 2/2 1.58s
#63 GPT-5.3 Chat none OpenAI 9.8 7.2 2/2 3.51s
#65 Grok 4.20 medium X AI 9.8 7.1 2/2 4.26s

Лучшие модели по Оценка Следование инструкциям

Оценка Следование инструкциям vs общая стоимость

Лучшие модели по Время ответа (среднее)