Рейтинг Предметно-ориентированное x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Предметно-ориентированное, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

421

Наиболее затронутая модель

Muse Spark 1.1 3

Причины сбоев

Неверный ответ421 Тайм-аут43 Лишнее форматирование17 Нет ответа8 Ошибка API7 Не соблюдены инструкции1

Категории

Предметно-ориентированное421 Анти-ИИ уловки293 Программирование259 Решение головоломок204 Эрудиция172 Комбинированный69 Общий интеллект62 Следование инструкциям61 Парсинг и извлечение данных41 Вызов инструментов3

202/202

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $1.166 Время ответа (среднее) 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.454 Время ответа (среднее) 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.779 Время ответа (среднее) 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.078 Время ответа (среднее) 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.600 Время ответа (среднее) 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.096 Время ответа (среднее) 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $1.207 Время ответа (среднее) 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.746 Время ответа (среднее) 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.391 Время ответа (среднее) 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.457 Время ответа (среднее) 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.089 Время ответа (среднее) 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.128 Время ответа (среднее) 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.018 Время ответа (среднее) 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.646 Время ответа (среднее) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.621 Время ответа (среднее) 1.52s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Предметно-ориентированное: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь