Рейтинг Эрудиция x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Эрудиция, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

133

Наиболее затронутая модель

Qwen3.7 Max 1

Причины сбоев

Неверный ответ133 Ошибка API13 Нет ответа8

Категории

Предметно-ориентированное325 Анти-ИИ уловки250 Программирование201 Решение головоломок154 Эрудиция133 Следование инструкциям54 Комбинированный53 Общий интеллект36 Парсинг и извлечение данных35 Вызов инструментов2

133/133

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#93	Gemini 2.5 Flash none	Google	1	3.0	$0.016	0/1	1.15s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.016 Время ответа (среднее) 1.15s
#94	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.013	0/1	724ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.013 Время ответа (среднее) 724ms
#96	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.013	0/1	733ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.013 Время ответа (среднее) 733ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.005 Время ответа (среднее) 588ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.004 Время ответа (среднее) 1.25s
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	1	3.0	$0.027	0/1	1.83s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.027 Время ответа (среднее) 1.83s
#100	Qwen3.6 Max Preview none	Qwen	1	3.0	$0.075	0/1	1.97s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.075 Время ответа (среднее) 1.97s
#101	GLM 5 none	Z.ai	1	3.0	$0.027	0/1	3.62s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.027 Время ответа (среднее) 3.62s
#102	Qwen3.6 Flash none	Qwen	1	3.0	$0.015	0/1	649ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.015 Время ответа (среднее) 649ms
#103	Qwen3.5-35B-A3B none	Qwen	1	3.0	$0.012	0/1	493ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.012 Время ответа (среднее) 493ms
#104	Qwen3.5-27B none	Qwen	1	3.0	$0.015	0/1	599ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.015 Время ответа (среднее) 599ms
#105	GLM 5V Turbo none	Z.ai	1	3.0	$0.052	0/1	2.23s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.052 Время ответа (среднее) 2.23s
#106	Qwen3.5 Plus 2026-02-15 none	Qwen	1	3.0	$0.016	0/1	1.11s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.016 Время ответа (среднее) 1.11s
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 2.38s
#109	Mimo V2 PRO none	Xiaomi	1	3.0	$0.045	0/1	1.63s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.045 Время ответа (среднее) 1.63s

←

1 5 6 7 9

→

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Эрудиция: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь