Рейтинг Предметно-ориентированное x Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Предметно-ориентированное, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

421

Наиболее затронутая модель

Muse Spark 1.1 3

Причины сбоев

Неверный ответ421 Тайм-аут43 Лишнее форматирование17 Нет ответа8 Ошибка API7 Не соблюдены инструкции1

Категории

Предметно-ориентированное421 Анти-ИИ уловки293 Программирование259 Решение головоломок204 Эрудиция172 Комбинированный69 Общий интеллект62 Следование инструкциям61 Парсинг и извлечение данных41 Вызов инструментов3

202/202

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#174	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.025 Время ответа (среднее) 756ms
#175	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.021 Время ответа (среднее) 464ms
#177	North Mini Code none	Cohere	3	3.0	$0.000	0/3	14.7s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 14.7s
#180	GPT-4o-mini none	OpenAI	3	3.0	$0.010	0/3	637ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.010 Время ответа (среднее) 637ms
#183	Nemotron 3 Super none	NVIDIA	3	3.6	$0.008	0/3	6.23s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.008 Время ответа (среднее) 6.23s
#184	Ling-2.6-flash none	Inclusionai	3	3.0	$0.002	0/3	4.95s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.002 Время ответа (среднее) 4.95s
#186	GPT-5.4 Nano none	OpenAI	3	2.9	$0.041	0/3	926ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.041 Время ответа (среднее) 926ms
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	2.9	$0.067	0/3	6.24s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.067 Время ответа (среднее) 6.24s
#194	Cobuddy medium	Baidu	3	2.9	$0.000	0/3	128.2s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 128.2s
#197	Grok 4.20 Beta none	X AI	3	3.0	$0.087	0/3	611ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.087 Время ответа (среднее) 611ms
#198	Laguna M.1 none	Poolside	3	3.6	$0.009	0/3	5.50s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.009 Время ответа (среднее) 5.50s
#199	Elephant Alpha none	Openrouter	3	3.0	$0.000	0/3	927ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 927ms
#201	Elephant Alpha medium	Openrouter	3	3.0	$0.000	0/3	925ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.000 Время ответа (среднее) 925ms
#207	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.007 Время ответа (среднее) 357ms
#212	gpt-oss-120b none	OpenAI	3	3.0	$0.010	0/3	35.0s
Всего тестов 3 Ошибочных тестов 3 Общая стоимость $0.010 Время ответа (среднее) 35.0s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Предметно-ориентированное: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь