Рейтинг Эрудиция x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Эрудиция, чтобы быстрее находить слабые места.

Показано моделей

Всего сбоев

133

Наиболее затронутая модель

Qwen3.7 Max 1

Причины сбоев

Неверный ответ133 Ошибка API13 Нет ответа8

Категории

Предметно-ориентированное325 Анти-ИИ уловки250 Программирование201 Решение головоломок154 Эрудиция133 Следование инструкциям54 Комбинированный53 Общий интеллект36 Парсинг и извлечение данных35 Вызов инструментов2

133/133

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#3	Qwen3.7 Max medium	Qwen	1	3.0	$0.523	0/1	33.4s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.523 Время ответа (среднее) 33.4s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.907 Время ответа (среднее) 10.1s
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $3.679 Время ответа (среднее) 37.9s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.740 Время ответа (среднее) 14.4s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.960 Время ответа (среднее) 60.6s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.679 Время ответа (среднее) 2.25s
#15	GLM 5 medium	Z.ai	1	3.0	$0.228	0/1	67.4s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.228 Время ответа (среднее) 67.4s
#16	GPT-5 Mini medium	OpenAI	1	3.0	$0.159	0/1	9.99s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.159 Время ответа (среднее) 9.99s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $1.210 Время ответа (среднее) 14.0s
#18	Seed-2.0-Lite medium	Bytedance Seed	1	3.0	$0.175	0/1	48.3s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.175 Время ответа (среднее) 48.3s
#19	GPT-5.2 Chat none	OpenAI	1	3.0	$0.393	0/1	6.89s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.393 Время ответа (среднее) 6.89s
#21	GLM 5 Turbo medium	Z.ai	1	3.0	$0.323	0/1	40.2s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.323 Время ответа (среднее) 40.2s
#22	GPT-5.2 medium	OpenAI	1	3.0	$0.548	0/1	28.2s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.548 Время ответа (среднее) 28.2s
#23	DeepSeek V4 Flash high	DeepSeek	1	3.0	$0.027	0/1	54.5s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.027 Время ответа (среднее) 54.5s
#24	Gemini 2.5 Flash medium	Google	1	3.0	$0.379	0/1	2.76s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.379 Время ответа (среднее) 2.76s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Эрудиция: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь