Рейтинг Анти-ИИ уловки x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Анти-ИИ уловки, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

293

Наиболее затронутая модель

Seed-2.0-Lite 4

Причины сбоев

Неверный ответ293 Не соблюдены инструкции33 Лишнее форматирование20 Ошибка API14 Нет ответа4 Тайм-аут4

Категории

Предметно-ориентированное421 Анти-ИИ уловки293 Программирование259 Решение головоломок204 Эрудиция172 Комбинированный69 Общий интеллект62 Следование инструкциям61 Парсинг и извлечение данных41 Вызов инструментов3

140/140

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#91	GPT-5.5 none	OpenAI	2	6.9	$0.544	2/4	1.31s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.544 Время ответа (среднее) 1.31s
#92	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.300 Время ответа (среднее) 892ms
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.068 Время ответа (среднее) 42.0s
#111	Gemini 3.1 Flash Lite low	Google	2	7.3	$0.621	2/4	1.84s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.621 Время ответа (среднее) 1.84s
#121	Gemma 4 31B none	Google	2	6.5	$0.021	2/4	1.85s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.021 Время ответа (среднее) 1.85s
#128	Gemini 3.1 Flash Lite none	Google	2	7.5	$0.046	2/4	1.07s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.046 Время ответа (среднее) 1.07s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.114 Время ответа (среднее) 25.5s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	7.3	$0.041	2/4	3.50s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.041 Время ответа (среднее) 3.50s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.008 Время ответа (среднее) 755ms
#172	Qwen3 Coder Next none	Qwen	2	3.6	$0.025	0/4	3.31s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.025 Время ответа (среднее) 3.31s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.000 Время ответа (среднее) 22.5s
#190	Hunter Alpha medium	OpenRouter	2	7.3	$0.000	2/4	4.75s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 4.75s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.166 Время ответа (среднее) 15.0s
#201	Elephant Alpha medium	Openrouter	2	6.6	$0.000	2/4	1.19s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 1.19s
#207	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.007 Время ответа (среднее) 844ms

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Анти-ИИ уловки: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь