Рейтинг Анти-ИИ уловки x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Анти-ИИ уловки, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

293

Наиболее затронутая модель

Seed-2.0-Lite 4

Причины сбоев

Неверный ответ293 Не соблюдены инструкции33 Лишнее форматирование20 Ошибка API14 Нет ответа4 Тайм-аут4

Категории

Предметно-ориентированное421 Анти-ИИ уловки293 Программирование259 Решение головоломок204 Эрудиция172 Комбинированный69 Общий интеллект62 Следование инструкциям61 Парсинг и извлечение данных41 Вызов инструментов3

140/140

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	5.3	$0.067	1/4	2.68s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.067 Время ответа (среднее) 2.68s
#193	Qwen3 Coder Next medium	Qwen	3	3.5	$0.032	0/4	8.64s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.032 Время ответа (среднее) 8.64s
#198	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.009 Время ответа (среднее) 705ms
#203	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.057 Время ответа (среднее) 501ms
#209	Grok 4.1 Fast none	X AI	3	3.2	$0.008	0/4	1.07s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.008 Время ответа (среднее) 1.07s
#216	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.001 Время ответа (среднее) 471ms
#27	Muse Spark 1.1 low	Meta	2	7.9	$0.647	2/4	4.36s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.647 Время ответа (среднее) 4.36s
#50	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.200 Время ответа (среднее) 25.7s
#51	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/4	14.9s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.286 Время ответа (среднее) 14.9s
#56	Kimi K2.7 Code medium	Moonshot AI	2	7.3	$0.740	2/4	11.6s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.740 Время ответа (среднее) 11.6s
#63	Qwen3.7 Max none	Qwen	2	6.5	$0.197	2/4	1.08s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.197 Время ответа (среднее) 1.08s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	2	6.9	$0.387	2/4	4.20s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.387 Время ответа (среднее) 4.20s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	2	7.0	$0.482	2/4	3.17s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.482 Время ответа (среднее) 3.17s
#75	Qwen3.7 Plus none	Qwen	2	6.5	$0.106	2/4	1.38s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.106 Время ответа (среднее) 1.38s
#86	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.096 Время ответа (среднее) 4.02s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Анти-ИИ уловки: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь