Рейтинг Предметно-ориентированное x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Предметно-ориентированное, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

421

Наиболее затронутая модель

Muse Spark 1.1 3

Причины сбоев

Неверный ответ421 Тайм-аут43 Лишнее форматирование17 Нет ответа8 Ошибка API7 Не соблюдены инструкции1

Категории

Предметно-ориентированное421 Анти-ИИ уловки293 Программирование259 Решение головоломок204 Эрудиция172 Комбинированный69 Общий интеллект62 Следование инструкциям61 Парсинг и извлечение данных41 Вызов инструментов3

202/202

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.584 Время ответа (среднее) 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.604 Время ответа (среднее) 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.391 Время ответа (среднее) 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.055 Время ответа (среднее) 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.234 Время ответа (среднее) 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.676 Время ответа (среднее) 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $2.077 Время ответа (среднее) 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.307 Время ответа (среднее) 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.200 Время ответа (среднее) 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.323 Время ответа (среднее) 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.352 Время ответа (среднее) 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.138 Время ответа (среднее) 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.519 Время ответа (среднее) 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.478 Время ответа (среднее) 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.177 Время ответа (среднее) 8.05s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Предметно-ориентированное: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь