Рейтинг моделей по Следование инструкциям

Посмотрите, какие AI-модели лучше всего справляются с Следование инструкциям, какие остаются надежными и где заметнее всего разница. Сортировать по: Метрика ↑.

Показано моделей

Среднее значение Оценка Следование инструкциям

8.5

Лучшая модель

Grok 4.1 Fast 3.0

Причины сбоев

С причиной сбоя Неверный ответ61 С причиной сбоя Не соблюдены инструкции18 С причиной сбоя Лишнее форматирование3 С причиной сбоя Нет ответа2 С причиной сбоя Ошибка API1 С причиной сбоя Тайм-аут1

210/210

Ранг	Модель	Компания	Оценка Следование инструкциям	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#125	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.073 Время ответа (среднее) 8.81s
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.106 Время ответа (среднее) 809ms
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.095 Время ответа (среднее) 728ms
#142	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.247 Время ответа (среднее) 513ms
#156	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.015 Время ответа (среднее) 690ms
#164	Inkling none	Thinkingmachines	6.3	5.2	$0.147	1/2	1.72s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.147 Время ответа (среднее) 1.72s
#166	Qwen3 Coder Next none	Qwen	6.3	5.1	$0.025	1/2	7.78s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.025 Время ответа (среднее) 7.78s
#174	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.010 Время ответа (среднее) 1.11s
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.008 Время ответа (среднее) 804ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.041 Время ответа (среднее) 784ms
#187	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.032 Время ответа (среднее) 7.49s
#191	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.087 Время ответа (среднее) 649ms
#197	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.057 Время ответа (среднее) 445ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.001 Время ответа (среднее) 752ms
#82	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.096 Время ответа (среднее) 4.12s

Рейтинг Следование инструкциям

Фильтровать модели

Лучшие модели по Оценка Следование инструкциям

Оценка Следование инструкциям vs общая стоимость

Лучшие модели по Время ответа (среднее)