Рейтинг Анти-ИИ уловки x Лишнее форматирование

Посмотрите, какие AI-модели чаще всего сталкиваются с Лишнее форматирование в Анти-ИИ уловки, чтобы быстрее находить слабые места. Сортировать по: Тестов верно ↓.

Показано моделей

Всего сбоев

Наиболее затронутая модель

Grok Build 0.1 1

Причины сбоев

Неверный ответ293 Не соблюдены инструкции33 Лишнее форматирование20 Ошибка API14 Нет ответа4 Тайм-аут4

Категории

Анти-ИИ уловки20 Программирование18 Предметно-ориентированное17 Решение головоломок8 Парсинг и извлечение данных6 Следование инструкциям3 Комбинированный1

14/14

Ранг	Модель	Компания	Количество Лишнее форматирование	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#48	Grok Build 0.1 medium	X AI	1	8.3	$1.097	3/4	7.43s
Всего тестов 4 Ошибочных тестов 1 Общая стоимость $1.097 Время ответа (среднее) 7.43s
#58	Qwen3.5-27B medium	Qwen	1	8.7	$1.627	3/4	19.8s
Всего тестов 4 Ошибочных тестов 1 Общая стоимость $1.627 Время ответа (среднее) 19.8s
#113	MiMo-V2-Flash medium	Xiaomi	1	8.1	$0.043	3/4	15.8s
Всего тестов 4 Ошибочных тестов 1 Общая стоимость $0.043 Время ответа (среднее) 15.8s
#137	North Mini Code medium	Cohere	1	8.4	$0.000	3/4	64.8s
Всего тестов 4 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 64.8s
#40	Claude Sonnet 4.6 medium	Anthropic	1	6.5	$2.057	2/4	2.98s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $2.057 Время ответа (среднее) 2.98s
#43	Claude Opus 4.6 medium	Anthropic	2	6.4	$3.059	2/4	7.45s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $3.059 Время ответа (среднее) 7.45s
#66	Claude Opus 4.8 none	Anthropic	2	6.5	$1.166	2/4	3.40s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $1.166 Время ответа (среднее) 3.40s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	6.9	$5.599	2/4	3.46s
Всего тестов 4 Ошибочных тестов 2 Общая стоимость $5.599 Время ответа (среднее) 3.46s
#63	Claude Sonnet 4.6 none	Anthropic	2	4.8	$0.661	1/4	2.94s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.661 Время ответа (среднее) 2.94s
#112	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/4	3.60s
Всего тестов 4 Ошибочных тестов 3 Общая стоимость $0.548 Время ответа (среднее) 3.60s
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.096 Время ответа (среднее) 4.02s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.025 Время ответа (среднее) 3.31s
#171	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.000 Время ответа (среднее) 22.5s
#173	DeepSeek V3.2 none	DeepSeek	2	3.2	$0.054	0/4	9.35s
Всего тестов 4 Ошибочных тестов 4 Общая стоимость $0.054 Время ответа (среднее) 9.35s

Фильтровать модели

Лучшие модели по Количество Лишнее форматирование

Количество Лишнее форматирование против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Анти-ИИ уловки: Лишнее форматирование

Фильтровать модели

Лучшие модели по Количество Лишнее форматирование

Количество Лишнее форматирование против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь