Рейтинг сбоев по Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ, чтобы заранее заметить риски надежности. Сортировать по: Тестов верно ↑.

Показано моделей

Всего сбоев

1558

Наиболее затронутая модель

Granite 4.1 8B 13

Категории

209/209

Ранг	Модель	Компания	Количество Неверный ответ	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Всего тестов 21 Ошибочных тестов 17 Общая стоимость $0.025 Время ответа (среднее) 2.76s
#192	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Всего тестов 19 Ошибочных тестов 15 Общая стоимость $0.009 Время ответа (среднее) 2.89s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
Всего тестов 19 Ошибочных тестов 15 Общая стоимость $0.000 Время ответа (среднее) 17.1s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
Всего тестов 22 Ошибочных тестов 17 Общая стоимость $0.044 Время ответа (среднее) 36.8s
#160	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
Всего тестов 22 Ошибочных тестов 17 Общая стоимость $0.008 Время ответа (среднее) 1.55s
#165	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
Всего тестов 22 Ошибочных тестов 17 Общая стоимость $0.022 Время ответа (среднее) 1.20s
#166	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Всего тестов 22 Ошибочных тестов 17 Общая стоимость $0.025 Время ответа (среднее) 9.12s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
Всего тестов 22 Ошибочных тестов 17 Общая стоимость $0.096 Время ответа (среднее) 10.8s
#168	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Всего тестов 22 Ошибочных тестов 17 Общая стоимость $0.025 Время ответа (среднее) 4.62s
#172	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
Всего тестов 22 Ошибочных тестов 17 Общая стоимость $0.163 Время ответа (среднее) 41.3s
#174	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Всего тестов 22 Ошибочных тестов 17 Общая стоимость $0.010 Время ответа (среднее) 1.99s
#177	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
Всего тестов 22 Ошибочных тестов 17 Общая стоимость $0.008 Время ответа (среднее) 5.97s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
Всего тестов 22 Ошибочных тестов 17 Общая стоимость $0.067 Время ответа (среднее) 12.2s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Всего тестов 22 Ошибочных тестов 17 Общая стоимость $0.340 Время ответа (среднее) 68.3s
#193	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
Всего тестов 21 Ошибочных тестов 16 Общая стоимость $0.000 Время ответа (среднее) 1.22s

Сбои: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)