Рейтинг Предметно-ориентированное x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Предметно-ориентированное, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

412

Наиболее затронутая модель

Muse Spark 1.1 3

Причины сбоев

Неверный ответ412 Тайм-аут43 Лишнее форматирование17 Нет ответа8 Ошибка API7 Не соблюдены инструкции1

Категории

Предметно-ориентированное412 Анти-ИИ уловки293 Программирование252 Решение головоломок201 Эрудиция168 Комбинированный68 Следование инструкциям61 Общий интеллект59 Парсинг и извлечение данных41 Вызов инструментов3

198/198

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#117	GPT-5.6 Luna low	OpenAI	3	3.6	$0.249	0/3	10.0s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.249 Время ответа (среднее) 10.0s
#120	Gemini 3.1 Flash Lite minimal	Google	3	2.9	$0.047	0/3	1.02s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.047 Время ответа (среднее) 1.02s
#121	gpt-oss-120b medium	OpenAI	3	2.9	$0.019	0/3	50.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.019 Время ответа (среднее) 50.9s
#122	Gemini 3.1 Flash Lite none	Google	3	2.9	$0.046	0/3	762ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.046 Время ответа (среднее) 762ms
#136	GPT-5.4 Mini none	OpenAI	3	3.5	$0.095	0/3	937ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.095 Время ответа (среднее) 937ms
#141	GLM 5 none	Z.ai	3	3.0	$0.041	0/3	2.24s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.041 Время ответа (среднее) 2.24s
#143	Gemini 3.1 Flash Lite high	Google	3	3.6	$2.044	0/3	139.9s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $2.044 Время ответа (среднее) 139.9s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.0	$0.048	0/3	4.87s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.048 Время ответа (среднее) 4.87s
#151	GLM 5.1 none	Z.ai	3	2.9	$0.164	0/3	1.99s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.164 Время ответа (среднее) 1.99s
#156	Gemma 4 26B A4B none	Google	3	3.6	$0.015	0/3	2.49s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.015 Время ответа (среднее) 2.49s
#159	GPT-5.6 Luna none	OpenAI	3	2.9	$0.142	0/3	737ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.142 Время ответа (среднее) 737ms
#161	Qwen3.6 35B A3B none	Qwen	3	3.5	$0.061	0/3	7.45s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.061 Время ответа (среднее) 7.45s
#162	Ling-2.6-1T none	Inclusionai	3	3.0	$0.016	0/3	1.04s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.016 Время ответа (среднее) 1.04s
#168	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.025 Время ответа (среднее) 756ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.021 Время ответа (среднее) 464ms

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Предметно-ориентированное: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь