Рейтинг Эрудиция x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Эрудиция, чтобы быстрее находить слабые места. Сортировать по: Общая стоимость ↓.

Показано моделей

Всего сбоев

133

Наиболее затронутая модель

GPT-5.5 1

Причины сбоев

Неверный ответ133 Ошибка API13 Нет ответа8

Категории

Предметно-ориентированное325 Анти-ИИ уловки250 Программирование201 Решение головоломок154 Эрудиция133 Следование инструкциям54 Комбинированный53 Общий интеллект36 Парсинг и извлечение данных35 Вызов инструментов2

133/133

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $3.679 Время ответа (среднее) 37.9s
#38	Claude Opus 4.6 medium	Anthropic	1	3.0	$2.053	0/1	63.2s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $2.053 Время ответа (среднее) 63.2s
#31	Claude Sonnet 4.6 medium	Anthropic	1	3.0	$1.418	0/1	30.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $1.418 Время ответа (среднее) 30.1s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $1.210 Время ответа (среднее) 14.0s
#66	Gemini 3.5 Flash none	Google	1	2.8	$1.079	0/1	4.87s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $1.079 Время ответа (среднее) 4.87s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.960 Время ответа (среднее) 60.6s
#42	Grok Build 0.1 medium	X AI	1	3.0	$0.927	0/1	53.5s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.927 Время ответа (среднее) 53.5s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.907 Время ответа (среднее) 10.1s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.889 Время ответа (среднее) 130.3s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.740 Время ответа (среднее) 14.4s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.683 Время ответа (среднее) 234.2s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.679 Время ответа (среднее) 2.25s
#37	Grok 4.3 medium	X AI	1	3.0	$0.614	0/1	44.5s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.614 Время ответа (среднее) 44.5s
#53	Grok 4.20 medium	X AI	1	3.0	$0.609	0/1	63.5s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.609 Время ответа (среднее) 63.5s
#36	Qwen3.5-122B-A10B medium	Qwen	1	3.0	$0.588	0/1	52.9s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.588 Время ответа (среднее) 52.9s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Эрудиция: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь