Рейтинг сбоев по Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ, чтобы заранее заметить риски надежности.

Показано моделей

Всего сбоев

1585

Наиболее затронутая модель

Категории

215/215

Ранг	Модель	Компания	Количество Неверный ответ	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#199	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
Всего тестов 21 Ошибочных тестов 16 Общая стоимость $0.000 Время ответа (среднее) 1.22s
#200	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
Всего тестов 22 Ошибочных тестов 18 Общая стоимость $0.166 Время ответа (среднее) 142.6s
#201	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
Всего тестов 21 Ошибочных тестов 15 Общая стоимость $0.000 Время ответа (среднее) 1.27s
#202	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
Всего тестов 18 Ошибочных тестов 12 Общая стоимость $0.000 Время ответа (среднее) 4.70s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
Всего тестов 19 Ошибочных тестов 17 Общая стоимость $0.000 Время ответа (среднее) 728ms
#216	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
Всего тестов 16 Ошибочных тестов 14 Общая стоимость $0.001 Время ответа (среднее) 782ms
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Всего тестов 22 Ошибочных тестов 8 Общая стоимость $0.676 Время ответа (среднее) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Всего тестов 22 Ошибочных тестов 8 Общая стоимость $0.352 Время ответа (среднее) 7.28s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.138 Время ответа (среднее) 13.2s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.519 Время ответа (среднее) 5.31s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.454 Время ответа (среднее) 20.7s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.317 Время ответа (среднее) 46.4s
#82	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
Всего тестов 22 Ошибочных тестов 12 Общая стоимость $0.093 Время ответа (среднее) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
Всего тестов 22 Ошибочных тестов 12 Общая стоимость $0.096 Время ответа (среднее) 11.6s
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.738 Время ответа (среднее) 44.7s

Сбои: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)