Рейтинг Эрудиция x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Эрудиция, чтобы быстрее находить слабые места. Сортировать по: Время ответа (среднее) ↓.

Показано моделей

Всего сбоев

133

Наиболее затронутая модель

Kimi K2.7 Code 1

Причины сбоев

Неверный ответ133 Ошибка API13 Нет ответа8

Категории

Предметно-ориентированное325 Анти-ИИ уловки250 Программирование201 Решение головоломок154 Эрудиция133 Следование инструкциям54 Комбинированный53 Общий интеллект36 Парсинг и извлечение данных35 Вызов инструментов2

133/133

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#65	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.583	0/1	341.8s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.583 Время ответа (среднее) 341.8s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.683 Время ответа (среднее) 234.2s
#59	Gemma 4 26B A4B medium	Google	1	3.0	$0.045	0/1	180.9s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.045 Время ответа (среднее) 180.9s
#89	Qwen3.5-35B-A3B medium	Qwen	1	3.0	$0.401	0/1	177.4s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.401 Время ответа (среднее) 177.4s
#144	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	133.6s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.026 Время ответа (среднее) 133.6s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.889 Время ответа (среднее) 130.3s
#47	Qwen3.6 Flash medium	Qwen	1	3.0	$0.288	0/1	122.9s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.288 Время ответа (среднее) 122.9s
#168	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	114.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.020 Время ответа (среднее) 114.1s
#72	Ring-2.6-1T medium	Inclusionai	1	3.0	$0.033	0/1	113.9s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.033 Время ответа (среднее) 113.9s
#80	Step 3.5 Flash medium	Stepfun	1	3.0	$0.070	0/1	108.4s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.070 Время ответа (среднее) 108.4s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	3.0	$0.310	0/1	103.8s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.310 Время ответа (среднее) 103.8s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	3.0	$0.317	0/1	92.6s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.317 Время ответа (среднее) 92.6s
#25	Qwen3.7 Plus medium	Qwen	1	3.0	$0.177	0/1	91.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.177 Время ответа (среднее) 91.1s
#88	Gemma 4 31B medium	Google	1	3.0	$0.033	0/1	90.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.033 Время ответа (среднее) 90.1s
#29	Qwen3.5-27B medium	Qwen	1	3.0	$0.536	0/1	85.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.536 Время ответа (среднее) 85.1s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Эрудиция: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь