Рейтинг сбоев по Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ, чтобы заранее заметить риски надежности.

Показано моделей

Всего сбоев

1585

Наиболее затронутая модель

Категории

215/215

Ранг	Модель	Компания	Количество Неверный ответ	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Всего тестов 21 Ошибочных тестов 13 Общая стоимость $0.021 Время ответа (среднее) 2.44s
#197	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
Всего тестов 18 Ошибочных тестов 12 Общая стоимость $0.087 Время ответа (среднее) 1.19s
#198	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Всего тестов 19 Ошибочных тестов 15 Общая стоимость $0.009 Время ответа (среднее) 2.89s
#203	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
Всего тестов 18 Ошибочных тестов 12 Общая стоимость $0.057 Время ответа (среднее) 1.11s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
Всего тестов 22 Ошибочных тестов 11 Общая стоимость $0.467 Время ответа (среднее) 24.0s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.145 Время ответа (среднее) 2.25s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.369 Время ответа (среднее) 6.01s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.621 Время ответа (среднее) 16.3s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Всего тестов 22 Ошибочных тестов 12 Общая стоимость $0.021 Время ответа (среднее) 5.34s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Всего тестов 22 Ошибочных тестов 13 Общая стоимость $0.019 Время ответа (среднее) 21.9s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
Всего тестов 22 Ошибочных тестов 13 Общая стоимость $0.114 Время ответа (среднее) 54.9s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Всего тестов 22 Ошибочных тестов 13 Общая стоимость $0.000 Время ответа (среднее) 137.1s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
Всего тестов 22 Ошибочных тестов 15 Общая стоимость $0.077 Время ответа (среднее) 15.9s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
Всего тестов 22 Ошибочных тестов 16 Общая стоимость $0.002 Время ответа (среднее) 10.7s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
Всего тестов 21 Ошибочных тестов 14 Общая стоимость $0.000 Время ответа (среднее) 39.9s

Сбои: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)