Рейтинг Анти-ИИ уловки x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Анти-ИИ уловки, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

293

Наиболее затронутая модель

Seed-2.0-Lite 4

Причины сбоев

Неверный ответ293 Не соблюдены инструкции33 Лишнее форматирование20 Ошибка API14 Нет ответа4 Тайм-аут4

Категории

Предметно-ориентированное412 Анти-ИИ уловки293 Программирование252 Решение головоломок201 Эрудиция168 Комбинированный68 Следование инструкциям61 Общий интеллект59 Парсинг и извлечение данных41 Вызов инструментов3

140/140

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#132	GPT-5.6 Terra none	OpenAI	3	4.8	$0.349	1/4	942ms
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.349 Время ответа (среднее) 942ms
#138	Kimi K2.6 none	Moonshot AI	3	4.6	$0.184	1/4	1.39s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.184 Время ответа (среднее) 1.39s
#141	GLM 5 none	Z.ai	3	4.8	$0.041	1/4	2.37s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.041 Время ответа (среднее) 2.37s
#142	Qwen3.5-122B-A10B none	Qwen	3	4.8	$0.247	1/4	1.59s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.247 Время ответа (среднее) 1.59s
#145	GLM 5V Turbo none	Z.ai	3	4.8	$0.052	1/4	3.13s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.052 Время ответа (среднее) 3.13s
#146	Owl Alpha medium	Openrouter	3	4.8	$0.000	1/4	3.97s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 3.97s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.000 Время ответа (среднее) 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.068 Время ответа (среднее) 2.67s
#157	Mimo V2 Omni none	Xiaomi	3	3.6	$0.021	0/4	1.63s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.021 Время ответа (среднее) 1.63s
#159	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.142 Время ответа (среднее) 901ms
#164	Inkling none	Thinkingmachines	3	4.8	$0.147	1/4	1.43s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.147 Время ответа (среднее) 1.43s
#167	Mistral Small 4 medium	Mistral	3	5.6	$0.096	1/4	2.67s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.096 Время ответа (среднее) 2.67s
#174	GPT-4o-mini none	OpenAI	3	4.8	$0.010	1/4	1.34s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.010 Время ответа (среднее) 1.34s
#176	GLM 4.7 Flash none	Z.ai	3	5.2	$0.016	1/4	5.51s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.016 Время ответа (среднее) 5.51s
#177	Nemotron 3 Super none	NVIDIA	3	4.8	$0.008	1/4	4.46s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.008 Время ответа (среднее) 4.46s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Анти-ИИ уловки: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь