Рейтинг Предметно-ориентированное x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Предметно-ориентированное, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

421

Наиболее затронутая модель

Muse Spark 1.1 3

Причины сбоев

Неверный ответ421 Тайм-аут43 Лишнее форматирование17 Нет ответа8 Ошибка API7 Не соблюдены инструкции1

Категории

Предметно-ориентированное421 Анти-ИИ уловки293 Программирование259 Решение головоломок204 Эрудиция172 Комбинированный69 Общий интеллект62 Следование инструкциям61 Парсинг и извлечение данных41 Вызов инструментов3

202/202

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#112	Gemini 3.1 Flash Lite Preview none	Google	2	5.3	$0.052	1/3	942ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.052 Время ответа (среднее) 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	2	5.3	$0.073	1/3	1.17s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.073 Время ответа (среднее) 1.17s
#118	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/3	3.28s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.548 Время ответа (среднее) 3.28s
#119	MiMo-V2-Flash medium	Xiaomi	2	5.9	$0.043	1/3	96.0s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.043 Время ответа (среднее) 96.0s
#124	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.017 Время ответа (среднее) 495ms
#129	Inkling low	Thinkingmachines	2	5.3	$0.187	1/3	1.99s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.187 Время ответа (среднее) 1.99s
#130	Qwen3.6 Flash none	Qwen	2	5.3	$0.062	1/3	1.11s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.062 Время ответа (среднее) 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	5.3	$0.122	1/3	4.43s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.122 Время ответа (среднее) 4.43s
#135	Nemotron 3 Ultra none	NVIDIA	2	5.3	$0.095	1/3	698ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.095 Время ответа (среднее) 698ms
#136	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.108 Время ответа (среднее) 170.5s
#137	Grok 4.20 Beta medium	X AI	2	5.3	$0.750	1/3	21.3s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.750 Время ответа (среднее) 21.3s
#138	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	757ms
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.349 Время ответа (среднее) 757ms
#139	Gemini 3 PRO Preview medium	Google	2	5.3	$0.385	1/3	7.01s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.385 Время ответа (среднее) 7.01s
#141	Hy3 preview high	Tencent	2	5.3	$0.048	1/3	109.0s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.048 Время ответа (среднее) 109.0s
#143	North Mini Code medium	Cohere	2	5.3	$0.000	1/3	71.4s
Всего тестов 3 Ошибочных тестов 2 Общая стоимость $0.000 Время ответа (среднее) 71.4s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Предметно-ориентированное: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь