Рейтинг сбоев по Неверный ответ

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ, чтобы заранее заметить риски надежности. Сортировать по: Оценка ↑.

Показано моделей

Всего сбоев

1585

Наиболее затронутая модель

LFM2-24B-A2B 9

Категории

215/215

Ранг	Модель	Компания	Количество Неверный ответ	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.621 Время ответа (среднее) 16.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
Всего тестов 22 Ошибочных тестов 9 Общая стоимость $0.646 Время ответа (среднее) 16.7s
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Всего тестов 22 Ошибочных тестов 13 Общая стоимость $0.068 Время ответа (среднее) 47.9s
#109	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
Всего тестов 22 Ошибочных тестов 14 Общая стоимость $0.090 Время ответа (среднее) 4.76s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.082 Время ответа (среднее) 32.2s
#106	Hy3 preview medium	Tencent	3	6.5	$0.018	14/21	16.3s
Всего тестов 21 Ошибочных тестов 7 Общая стоимость $0.018 Время ответа (среднее) 16.3s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
Всего тестов 22 Ошибочных тестов 12 Общая стоимость $0.779 Время ответа (среднее) 106.3s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.369 Время ответа (среднее) 6.01s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.231 Время ответа (среднее) 7.82s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
Всего тестов 22 Ошибочных тестов 13 Общая стоимость $0.469 Время ответа (среднее) 148.7s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
Всего тестов 22 Ошибочных тестов 10 Общая стоимость $0.128 Время ответа (среднее) 9.34s
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
Всего тестов 22 Ошибочных тестов 8 Общая стоимость $0.089 Время ответа (среднее) 103.8s
#99	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
Всего тестов 19 Ошибочных тестов 3 Общая стоимость $0.505 Время ответа (среднее) 3.02s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Всего тестов 21 Ошибочных тестов 10 Общая стоимость $0.457 Время ответа (среднее) 23.1s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Всего тестов 22 Ошибочных тестов 11 Общая стоимость $0.476 Время ответа (среднее) 25.6s

Сбои: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)