Рейтинг моделей по Следование инструкциям

Посмотрите, какие AI-модели лучше всего справляются с Следование инструкциям, какие остаются надежными и где заметнее всего разница. Сортировать по: Метрика ↑.

Показано моделей

Среднее значение Оценка Следование инструкциям

8.6

Лучшая модель

Grok 4.1 Fast 3.0

Причины сбоев

С причиной сбоя Неверный ответ61 С причиной сбоя Не соблюдены инструкции19 С причиной сбоя Лишнее форматирование3 С причиной сбоя Нет ответа2 С причиной сбоя Ошибка API1 С причиной сбоя Тайм-аут1

216/216

Ранг	Модель	Компания	Оценка Следование инструкциям	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.469 Время ответа (среднее) 6.96s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.044 Время ответа (среднее) 2.82s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.021 Время ответа (среднее) 2.84s
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.184 Время ответа (среднее) 1.64s
#145	GPT-5.4 none	OpenAI	6.5	5.8	$0.397	1/2	1.07s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.397 Время ответа (среднее) 1.07s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.052 Время ответа (среднее) 1.97s
#152	Owl Alpha medium	Openrouter	6.5	5.6	$0.000	1/2	10.2s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 10.2s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.045 Время ответа (среднее) 2.51s
#156	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.042	1/2	17.5s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.042 Время ответа (среднее) 17.5s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.127 Время ответа (среднее) 2.67s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.021 Время ответа (среднее) 4.26s
#171	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.022 Время ответа (среднее) 380ms
#174	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.025 Время ответа (среднее) 751ms
#175	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.021 Время ответа (среднее) 514ms
#176	GLM 5 Turbo none	Z.ai	6.5	5.1	$0.047	1/2	2.13s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.047 Время ответа (среднее) 2.13s

Рейтинг Следование инструкциям

Фильтровать модели

Лучшие модели по Оценка Следование инструкциям

Оценка Следование инструкциям vs общая стоимость

Лучшие модели по Время ответа (среднее)