Рейтинг Предметно-ориентированное x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Предметно-ориентированное, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

421

Наиболее затронутая модель

Muse Spark 1.1 3

Причины сбоев

Неверный ответ421 Тайм-аут43 Лишнее форматирование17 Нет ответа8 Ошибка API7 Не соблюдены инструкции1

Категории

Предметно-ориентированное421 Анти-ИИ уловки293 Программирование259 Решение головоломок204 Эрудиция172 Комбинированный69 Общий интеллект62 Следование инструкциям61 Парсинг и извлечение данных41 Вызов инструментов3

202/202

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 489ms
#5	GPT-5.6 Sol low	OpenAI	2	5.3	$0.971	1/3	29.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.971 Время ответа (среднее) 29.1s
#7	GPT-5.6 Sol medium	OpenAI	2	5.9	$1.316	1/3	47.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.316 Время ответа (среднее) 47.9s
#8	GPT-5.6 Sol high	OpenAI	2	5.3	$1.234	1/3	39.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.234 Время ответа (среднее) 39.5s
#9	GPT-5.5 low	OpenAI	2	5.3	$1.253	1/3	28.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.253 Время ответа (среднее) 28.1s
#11	Qwen3.7 Max medium	Qwen	2	5.9	$1.116	1/3	24.9s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.116 Время ответа (среднее) 24.9s
#13	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $4.137 Время ответа (среднее) 164.1s
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $1.707 Время ответа (среднее) 332.1s
#16	GPT-5.3-Codex medium	OpenAI	2	5.9	$0.920	1/3	64.3s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.920 Время ответа (среднее) 64.3s
#17	Claude Opus 4.8 medium	Anthropic	2	5.3	$1.931	1/3	14.6s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.931 Время ответа (среднее) 14.6s
#20	Claude Fable 5 medium	Anthropic	2	5.3	$3.478	1/3	53.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $3.478 Время ответа (среднее) 53.4s
#21	GPT-5.4 medium	OpenAI	2	5.3	$1.533	1/3	74.3s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.533 Время ответа (среднее) 74.3s
#28	Gemini 2.5 Flash medium	Google	2	5.9	$0.643	1/3	37.3s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.643 Время ответа (среднее) 37.3s
#29	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.237 Время ответа (среднее) 44.6s
#30	Muse Spark 1.1 high	Meta	2	3.5	$1.694	0/3	67.4s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $1.694 Время ответа (среднее) 67.4s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Предметно-ориентированное: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь