Рейтинг сбоев по Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ, чтобы заранее заметить риски надежности. Сортировать по: Оценка ↓.

Показано моделей

Всего сбоев

1642

Наиболее затронутая модель

Gemini 3.6 Flash 1

Категории

219/219

Ранг	Модель	Компания	Количество Неверный ответ	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
Всего тестов 22 Ошибочных тестов 8 Общая стоимость $0.300 Время ответа (среднее) 2.65s
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.085 Время ответа (среднее) 2.95s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.746 Время ответа (среднее) 58.1s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.145 Время ответа (среднее) 2.25s
#96	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
Всего тестов 22 Ошибочных тестов 12 Общая стоимость $0.391 Время ответа (среднее) 100.3s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Всего тестов 22 Ошибочных тестов 11 Общая стоимость $0.476 Время ответа (среднее) 25.6s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Всего тестов 21 Ошибочных тестов 10 Общая стоимость $0.457 Время ответа (среднее) 23.1s
#99	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
Всего тестов 19 Ошибочных тестов 3 Общая стоимость $0.505 Время ответа (среднее) 3.02s
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
Всего тестов 22 Ошибочных тестов 8 Общая стоимость $0.089 Время ответа (среднее) 103.8s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.124	12/22	9.34s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.124 Время ответа (среднее) 9.34s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
Всего тестов 22 Ошибочных тестов 13 Общая стоимость $0.469 Время ответа (среднее) 148.7s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.231 Время ответа (среднее) 7.82s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.369 Время ответа (среднее) 6.01s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
Всего тестов 22 Ошибочных тестов 12 Общая стоимость $0.779 Время ответа (среднее) 106.3s
#106	Hy3 preview medium	Tencent	3	6.5	$0.018	14/21	16.3s
Всего тестов 21 Ошибочных тестов 7 Общая стоимость $0.018 Время ответа (среднее) 16.3s

Сбои: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)