Рейтинг Эрудиция x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Эрудиция, чтобы быстрее находить слабые места. Сортировать по: Время ответа (среднее) ↑.

Показано моделей

Всего сбоев

133

Наиболее затронутая модель

Qwen3.5-122B-A10B 1

Причины сбоев

Неверный ответ133 Ошибка API13 Нет ответа8

Категории

Предметно-ориентированное325 Анти-ИИ уловки250 Программирование201 Решение головоломок154 Эрудиция133 Следование инструкциям54 Комбинированный53 Общий интеллект36 Парсинг и извлечение данных35 Вызов инструментов2

133/133

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#125	Qwen3.5-122B-A10B none	Qwen	1	3.0	$0.020	0/1	295ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.020 Время ответа (среднее) 295ms
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.003 Время ответа (среднее) 306ms
#129	Mistral Small 4 none	Mistral	1	3.0	$0.007	0/1	397ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.007 Время ответа (среднее) 397ms
#148	Qwen3 Coder Next medium	Qwen	1	3.0	$0.008	0/1	399ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.008 Время ответа (среднее) 399ms
#128	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.031	0/1	414ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.031 Время ответа (среднее) 414ms
#103	Qwen3.5-35B-A3B none	Qwen	1	3.0	$0.012	0/1	493ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.012 Время ответа (среднее) 493ms
#151	Mercury 2 none	Inception	1	3.0	$0.011	0/1	548ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.011 Время ответа (среднее) 548ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.005 Время ответа (среднее) 588ms
#104	Qwen3.5-27B none	Qwen	1	3.0	$0.015	0/1	599ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.015 Время ответа (среднее) 599ms
#130	Qwen3 Coder Next none	Qwen	1	3.0	$0.009	0/1	601ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.009 Время ответа (среднее) 601ms
#102	Qwen3.6 Flash none	Qwen	1	3.0	$0.015	0/1	649ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.015 Время ответа (среднее) 649ms
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.004 Время ответа (среднее) 692ms
#94	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.013	0/1	724ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.013 Время ответа (среднее) 724ms
#161	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/1	731ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.008 Время ответа (среднее) 731ms
#96	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.013	0/1	733ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.013 Время ответа (среднее) 733ms

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Эрудиция: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь