Рейтинг сбоев по Не соблюдены инструкции

Посмотрите, какие AI-модели чаще всего сталкиваются с Не соблюдены инструкции, чтобы заранее заметить риски надежности. Сортировать по: Оценка ↓.

Показано моделей

Всего сбоев

245

Наиболее затронутая модель

Gemini 3.5 Flash 1

Категории

В категории Решение головоломок90 В категории Общий интеллект78 В категории Анти-ИИ уловки33 В категории Следование инструкциям18 В категории Программирование16 В категории Вызов инструментов8 В категории Комбинированный1 В категории Предметно-ориентированное1

140/140

Ранг	Модель	Компания	Количество Не соблюдены инструкции	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
Всего тестов 22 Ошибочных тестов 8 Общая стоимость $0.234 Время ответа (среднее) 48.5s
#37	Qwen3.6 Plus medium	Qwen	1	7.8	$0.405	15/22	43.1s
Всего тестов 22 Ошибочных тестов 7 Общая стоимость $0.405 Время ответа (среднее) 43.1s
#42	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
Всего тестов 21 Ошибочных тестов 6 Общая стоимость $0.307 Время ответа (среднее) 33.5s
#43	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $3.059 Время ответа (среднее) 34.3s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.042 Время ответа (среднее) 49.7s
#46	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
Всего тестов 22 Ошибочных тестов 12 Общая стоимость $0.200 Время ответа (среднее) 79.1s
#47	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.286 Время ответа (среднее) 75.0s
#49	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
Всего тестов 21 Ошибочных тестов 7 Общая стоимость $0.323 Время ответа (среднее) 23.0s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.751	12/22	84.2s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.751 Время ответа (среднее) 84.2s
#53	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.138 Время ответа (среднее) 13.2s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.571 Время ответа (среднее) 6.88s
#56	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.756 Время ответа (среднее) 25.9s
#58	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $1.627 Время ответа (среднее) 111.9s
#63	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.661 Время ответа (среднее) 8.12s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.115 Время ответа (среднее) 4.61s

Сбои: Не соблюдены инструкции

Фильтровать модели

Лучшие модели по Количество Не соблюдены инструкции

Количество Не соблюдены инструкции против Оценка

Лучшие модели по Время ответа (среднее)