Рейтинг Предметно-ориентированное x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Предметно-ориентированное, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

421

Наиболее затронутая модель

Muse Spark 1.1 3

Причины сбоев

Неверный ответ421 Тайм-аут43 Лишнее форматирование17 Нет ответа8 Ошибка API7 Не соблюдены инструкции1

Категории

Предметно-ориентированное421 Анти-ИИ уловки293 Программирование259 Решение головоломок204 Эрудиция172 Комбинированный69 Общий интеллект62 Следование инструкциям61 Парсинг и извлечение данных41 Вызов инструментов3

202/202

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#170	Inkling none	Thinkingmachines	2	5.3	$0.147	1/3	1.45s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.147 Время ответа (среднее) 1.45s
#171	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.022 Время ответа (среднее) 367ms
#172	Qwen3 Coder Next none	Qwen	2	5.3	$0.025	1/3	962ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.025 Время ответа (среднее) 962ms
#176	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	1/3	1.97s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.047 Время ответа (среднее) 1.97s
#179	DeepSeek V3.2 none	DeepSeek	2	2.9	$0.054	0/3	4.17s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.054 Время ответа (среднее) 4.17s
#181	Qwen3.6 Plus Preview medium	Qwen	2	3.0	$0.000	0/3	22.1s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 22.1s
#185	Ring-2.6-1T none	Inclusionai	2	5.3	$0.026	1/3	73.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.026 Время ответа (среднее) 73.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	2.9	$5.599	0/3	24.7s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $5.599 Время ответа (среднее) 24.7s
#189	Trinity Large Preview none	Arcee AI	2	5.3	$0.008	1/3	877ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.008 Время ответа (среднее) 877ms
#192	Laguna M.1 medium	Poolside	2	5.3	$0.033	1/3	24.1s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.033 Время ответа (среднее) 24.1s
#193	Qwen3 Coder Next medium	Qwen	2	5.3	$0.032	1/3	638ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.032 Время ответа (среднее) 638ms
#195	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.030 Время ответа (среднее) 534ms
#196	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.340 Время ответа (среднее) 237.3s
#200	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.166 Время ответа (среднее) 174.6s
#202	Hunter Alpha none	OpenRouter	2	5.3	$0.000	1/3	2.33s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 2.33s

←

1 9 10 11 14

→

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Предметно-ориентированное: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь