Рейтинг Следование инструкциям x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Следование инструкциям, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

Наиболее затронутая модель

LongCat 2.0 1

Причины сбоев

Неверный ответ61 Не соблюдены инструкции18 Лишнее форматирование3 Нет ответа2 Ошибка API1 Тайм-аут1

Категории

Предметно-ориентированное412 Анти-ИИ уловки293 Программирование252 Решение головоломок201 Эрудиция168 Комбинированный68 Следование инструкциям61 Общий интеллект59 Парсинг и извлечение данных41 Вызов инструментов3

61/61

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#159	GPT-5.6 Luna none	OpenAI	1	7.1	$0.142	1/2	1.23s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.142 Время ответа (среднее) 1.23s
#160	Laguna XS 2.1 none	Poolside	1	3.8	$0.008	0/2	364ms
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.008 Время ответа (среднее) 364ms
#161	Qwen3.6 35B A3B none	Qwen	1	6.2	$0.061	1/2	1.86s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.061 Время ответа (среднее) 1.86s
#162	Ling-2.6-1T none	Inclusionai	1	6.4	$0.016	1/2	5.36s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.016 Время ответа (среднее) 5.36s
#164	Inkling none	Thinkingmachines	1	6.3	$0.147	1/2	1.72s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.147 Время ответа (среднее) 1.72s
#165	Mistral Small 4 none	Mistral	1	6.5	$0.022	1/2	380ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.022 Время ответа (среднее) 380ms
#166	Qwen3 Coder Next none	Qwen	1	6.3	$0.025	1/2	7.78s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.025 Время ответа (среднее) 7.78s
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.38s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.096 Время ответа (среднее) 1.38s
#168	MiMo-V2.5 none	Xiaomi	1	6.5	$0.025	1/2	751ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.025 Время ответа (среднее) 751ms
#169	Qwen3.5-9B none	Qwen	1	6.5	$0.021	1/2	514ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.021 Время ответа (среднее) 514ms
#170	GLM 5 Turbo none	Z.ai	1	6.5	$0.047	1/2	2.13s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.047 Время ответа (среднее) 2.13s
#171	North Mini Code none	Cohere	1	6.5	$0.000	1/2	30.7s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 30.7s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
Всего тестов 2 Ошибочных тестов 2 Общая стоимость $0.163 Время ответа (среднее) 12.8s
#174	GPT-4o-mini none	OpenAI	1	6.3	$0.010	1/2	1.11s
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.010 Время ответа (среднее) 1.11s
#176	GLM 4.7 Flash none	Z.ai	1	6.5	$0.016	1/2	888ms
Всего тестов 2 Ошибочных тестов 1 Общая стоимость $0.016 Время ответа (среднее) 888ms

←

1 2 3 4 5

→

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Следование инструкциям: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь