Рейтинг сбоев по Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ, чтобы заранее заметить риски надежности. Сортировать по: Число сбоев ↑.

Показано моделей

Всего сбоев

1585

Наиболее затронутая модель

Gemini 3.6 Flash 1

Категории

215/215

Ранг	Модель	Компания	Количество Неверный ответ	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Всего тестов 22 Ошибочных тестов 8 Общая стоимость $2.057 Время ответа (среднее) 25.9s
#45	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Всего тестов 22 Ошибочных тестов 6 Общая стоимость $2.077 Время ответа (среднее) 12.7s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Всего тестов 21 Ошибочных тестов 7 Общая стоимость $0.323 Время ответа (среднее) 23.0s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
Всего тестов 22 Ошибочных тестов 8 Общая стоимость $0.437 Время ответа (среднее) 89.2s
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $1.627 Время ответа (среднее) 111.9s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $1.166 Время ответа (среднее) 4.91s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.535 Время ответа (среднее) 46.8s
#84	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
Всего тестов 22 Ошибочных тестов 11 Общая стоимость $0.101 Время ответа (среднее) 92.5s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.746 Время ответа (среднее) 58.1s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.139 Время ответа (среднее) 84.8s
#136	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
Всего тестов 21 Ошибочных тестов 10 Общая стоимость $0.108 Время ответа (среднее) 174.2s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
Всего тестов 18 Ошибочных тестов 8 Общая стоимость $2.044 Время ответа (среднее) 62.0s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
Всего тестов 21 Ошибочных тестов 11 Общая стоимость $0.015 Время ответа (среднее) 24.6s
#187	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
Всего тестов 18 Ошибочных тестов 10 Общая стоимость $5.599 Время ответа (среднее) 9.69s
#190	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
Всего тестов 18 Ошибочных тестов 10 Общая стоимость $0.000 Время ответа (среднее) 10.3s

Сбои: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)