Рейтинг моделей по Следование инструкциям

Посмотрите, какие AI-модели лучше всего справляются с Следование инструкциям, какие остаются надежными и где заметнее всего разница. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

Среднее значение Оценка Следование инструкциям

8.6

Лучшая модель

Granite 4.1 8B 3.6

Причины сбоев

С причиной сбоя Неверный ответ61 С причиной сбоя Не соблюдены инструкции19 С причиной сбоя Лишнее форматирование3 С причиной сбоя Нет ответа2 С причиной сбоя Ошибка API1 С причиной сбоя Тайм-аут1

216/216

Ранг	Модель	Компания	Оценка Следование инструкциям	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $3.059 Время ответа (среднее) 2.43s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $1.316 Время ответа (среднее) 2.50s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.045 Время ответа (среднее) 2.51s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.387 Время ответа (среднее) 2.53s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.068 Время ответа (среднее) 2.57s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.467 Время ответа (среднее) 2.58s
#118	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.548 Время ответа (среднее) 2.58s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.117 Время ответа (среднее) 2.59s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $2.057 Время ответа (среднее) 2.61s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.476 Время ответа (среднее) 2.61s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.643 Время ответа (среднее) 2.62s
#154	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 2.63s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.482 Время ответа (среднее) 2.67s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.127 Время ответа (среднее) 2.67s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.642 Время ответа (среднее) 2.70s

Рейтинг Следование инструкциям

Фильтровать модели

Лучшие модели по Оценка Следование инструкциям

Оценка Следование инструкциям vs общая стоимость

Лучшие модели по Время ответа (среднее)