Рейтинг моделей по Следование инструкциям

Посмотрите, какие AI-модели лучше всего справляются с Следование инструкциям, какие остаются надежными и где заметнее всего разница. Сортировать по: Метрика ↑.

Показано моделей

Среднее значение Оценка Следование инструкциям

8.6

Лучшая модель

Grok 4.1 Fast 3.0

Причины сбоев

С причиной сбоя Неверный ответ61 С причиной сбоя Не соблюдены инструкции19 С причиной сбоя Лишнее форматирование3 С причиной сбоя Нет ответа2 С причиной сбоя Ошибка API1 С причиной сбоя Тайм-аут1

216/216

Ранг	Модель	Компания	Оценка Следование инструкциям	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.571 Время ответа (среднее) 3.51s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.756 Время ответа (среднее) 2.13s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.454 Время ответа (среднее) 1.58s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.777 Время ответа (среднее) 4.26s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $1.207 Время ответа (среднее) 1.52s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	2/2	869ms
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.145 Время ответа (среднее) 869ms
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.128 Время ответа (среднее) 3.84s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.231 Время ответа (среднее) 1.40s
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.369 Время ответа (среднее) 1.59s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.068 Время ответа (среднее) 2.57s
#114	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.103 Время ответа (среднее) 11.8s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.187 Время ответа (среднее) 1.81s
#134	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.114 Время ответа (среднее) 15.6s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.750 Время ответа (среднее) 4.89s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
Всего тестов 2 Ошибочных тестов 0 Общая стоимость $0.385 Время ответа (среднее) 3.26s

Рейтинг Следование инструкциям

Фильтровать модели

Лучшие модели по Оценка Следование инструкциям

Оценка Следование инструкциям vs общая стоимость

Лучшие модели по Время ответа (среднее)