Рейтинг сбоев по Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ, чтобы заранее заметить риски надежности.

Показано моделей

Всего сбоев

1558

Наиболее затронутая модель

Категории

209/209

Ранг	Модель	Компания	Количество Неверный ответ	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#145	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Всего тестов 21 Ошибочных тестов 13 Общая стоимость $0.052 Время ответа (среднее) 2.99s
#147	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Всего тестов 21 Ошибочных тестов 14 Общая стоимость $0.045 Время ответа (среднее) 2.27s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
Всего тестов 22 Ошибочных тестов 14 Общая стоимость $0.048 Время ответа (среднее) 8.42s
#152	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
Всего тестов 22 Ошибочных тестов 15 Общая стоимость $0.087 Время ответа (среднее) 10.7s
#154	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
Всего тестов 22 Ошибочных тестов 16 Общая стоимость $0.068 Время ответа (среднее) 4.12s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Всего тестов 22 Ошибочных тестов 11 Общая стоимость $0.387 Время ответа (среднее) 19.5s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Всего тестов 22 Ошибочных тестов 11 Общая стоимость $0.482 Время ответа (среднее) 20.8s
#71	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Всего тестов 22 Ошибочных тестов 11 Общая стоимость $0.106 Время ответа (среднее) 12.1s
#83	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Всего тестов 22 Ошибочных тестов 11 Общая стоимость $0.524 Время ответа (среднее) 2.16s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Всего тестов 22 Ошибочных тестов 11 Общая стоимость $0.476 Время ответа (среднее) 25.6s
#98	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.231 Время ответа (среднее) 7.82s
#117	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Всего тестов 22 Ошибочных тестов 12 Общая стоимость $0.249 Время ответа (среднее) 5.04s
#146	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Всего тестов 21 Ошибочных тестов 13 Общая стоимость $0.000 Время ответа (среднее) 11.9s
#148	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Всего тестов 21 Ошибочных тестов 14 Общая стоимость $0.000 Время ответа (среднее) 9.88s
#156	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
Всего тестов 22 Ошибочных тестов 14 Общая стоимость $0.015 Время ответа (среднее) 7.64s

Сбои: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)