Рейтинг Анти-ИИ уловки x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Анти-ИИ уловки, чтобы быстрее находить слабые места. Сортировать по: Время ответа (среднее) ↓.

Показано моделей

Всего сбоев

293

Наиболее затронутая модель

Seed-2.0-Mini 1

Причины сбоев

Неверный ответ293 Не соблюдены инструкции33 Лишнее форматирование20 Ошибка API14 Нет ответа4 Тайм-аут4

Категории

Предметно-ориентированное412 Анти-ИИ уловки293 Программирование252 Решение головоломок201 Эрудиция168 Комбинированный68 Следование инструкциям61 Общий интеллект59 Парсинг и извлечение данных41 Вызов инструментов3

140/140

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#80	Seed-2.0-Mini medium	Bytedance Seed	1	6.6	$0.101	2/4	74.7s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.101 Время ответа (среднее) 74.7s
#77	Kimi K2.5 medium	Moonshot AI	1	7.3	$0.600	2/4	51.4s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.600 Время ответа (среднее) 51.4s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	8.2	$0.437	3/4	45.8s
Всего тестов 4 Ошибочных тестов 1 Общая стоимость $0.437 Время ответа (среднее) 45.8s
#102	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.068 Время ответа (среднее) 42.0s
#172	MiniMax M2.7 medium	Minimax	1	7.9	$0.163	2/4	40.3s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.163 Время ответа (среднее) 40.3s
#143	Gemini 3.1 Flash Lite high	Google	1	8.7	$2.044	3/4	37.2s
Всего тестов 4 Ошибочных тестов 1 Общая стоимость $2.044 Время ответа (среднее) 37.2s
#204	Qwen3.5-9B medium	Qwen	1	5.1	$0.036	1/4	34.4s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.036 Время ответа (среднее) 34.4s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.010 Время ответа (среднее) 32.8s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.042	3/4	28.5s
Всего тестов 4 Ошибочных тестов 1 Общая стоимость $0.042 Время ответа (среднее) 28.5s
#46	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.200 Время ответа (среднее) 25.7s
#128	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.114 Время ответа (среднее) 25.5s
#171	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.000 Время ответа (среднее) 22.5s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.044 Время ответа (среднее) 20.2s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
Всего тестов 4 Ошибочных тестов 1 Общая стоимость $0.234 Время ответа (среднее) 18.0s
#194	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.166 Время ответа (среднее) 15.0s

1 2 10

→

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Анти-ИИ уловки: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь