Рейтинг Предметно-ориентированное x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Предметно-ориентированное, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

412

Наиболее затронутая модель

Muse Spark 1.1 3

Причины сбоев

Неверный ответ412 Тайм-аут43 Лишнее форматирование17 Нет ответа8 Ошибка API7 Не соблюдены инструкции1

Категории

Предметно-ориентированное412 Анти-ИИ уловки293 Программирование252 Решение головоломок201 Эрудиция168 Комбинированный68 Следование инструкциям61 Общий интеллект59 Парсинг и извлечение данных41 Вызов инструментов3

198/198

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	3	2.9	$0.317	0/3	53.1s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.317 Время ответа (среднее) 53.1s
#71	Qwen3.7 Plus none	Qwen	3	3.0	$0.106	0/3	868ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.106 Время ответа (среднее) 868ms
#72	Qwen3.5-122B-A10B medium	Qwen	3	2.9	$1.046	0/3	63.4s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $1.046 Время ответа (среднее) 63.4s
#78	Mercury 2 medium	Inception	3	2.9	$0.093	0/3	6.48s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.093 Время ответа (среднее) 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	3	2.9	$0.467	0/3	29.0s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.467 Время ответа (среднее) 29.0s
#83	GPT-5.6 Sol none	OpenAI	3	3.6	$0.524	0/3	1.43s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.524 Время ответа (среднее) 1.43s
#85	Qwen3.6 Flash medium	Qwen	3	3.5	$0.738	0/3	14.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.738 Время ответа (среднее) 14.6s
#87	GPT-5.5 none	OpenAI	3	2.9	$0.544	0/3	1.31s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.544 Время ответа (среднее) 1.31s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	3	3.6	$0.476	0/3	21.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.476 Время ответа (среднее) 21.6s
#99	Qwen3.6 27B medium	Qwen	3	2.9	$0.779	0/3	73.4s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.779 Время ответа (среднее) 73.4s
#102	Laguna XS 2.1 medium	Poolside	3	2.9	$0.068	0/3	65.7s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.068 Время ответа (среднее) 65.7s
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.090 Время ответа (среднее) 540ms
#108	Ring-2.6-1T medium	Inclusionai	3	3.5	$0.103	0/3	64.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.103 Время ответа (среднее) 64.9s
#111	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.044 Время ответа (среднее) 1.72s
#116	Seed-2.0-Lite none	Bytedance Seed	3	3.6	$0.066	0/3	1.33s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.066 Время ответа (среднее) 1.33s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Предметно-ориентированное: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь