Рейтинг моделей по Следование инструкциям

Посмотрите, какие AI-модели лучше всего справляются с Следование инструкциям, какие остаются надежными и где заметнее всего разница. Сортировать по: Время ответа (среднее) ↓.

Показано моделей

Среднее значение Оценка Следование инструкциям

8.6

Лучшая модель

Kimi K2.5 10.0

Причины сбоев

С причиной сбоя Неверный ответ61 С причиной сбоя Не соблюдены инструкции19 С причиной сбоя Лишнее форматирование3 С причиной сбоя Нет ответа2 С причиной сбоя Ошибка API1 С причиной сбоя Тайм-аут1

216/216

Ранг	Модель	Компания	Оценка Следование инструкциям	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.044 Время ответа (среднее) 2.82s
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.935 Время ответа (среднее) 2.80s
#45	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $2.077 Время ответа (среднее) 2.78s
#88	MiMo-V2.5-Pro medium	Xiaomi	9.9	6.9	$0.187	2/2	2.77s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.187 Время ответа (среднее) 2.77s
#1	Gemini 3.6 Flash medium	Google	9.9	9.9	$0.831	2/2	2.77s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.831 Время ответа (среднее) 2.77s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	2.73s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $1.234 Время ответа (среднее) 2.73s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.642 Время ответа (среднее) 2.70s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.127 Время ответа (среднее) 2.67s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.482 Время ответа (среднее) 2.67s
#154	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 2.63s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.643 Время ответа (среднее) 2.62s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.476 Время ответа (среднее) 2.61s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $2.057 Время ответа (среднее) 2.61s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.117 Время ответа (среднее) 2.59s
#118	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.548 Время ответа (среднее) 2.58s

Рейтинг Следование инструкциям

Фильтровать модели

Лучшие модели по Оценка Следование инструкциям

Оценка Следование инструкциям vs общая стоимость

Лучшие модели по Время ответа (среднее)