Рейтинг Эрудиция x Неверный ответ

Сбои по категориям AI BENCHY

Посмотрите, какие AI-модели чаще всего сталкиваются с Неверный ответ в Эрудиция, чтобы быстрее находить слабые места. Сортировать по: Общая стоимость ↑.

Показано моделей

Всего сбоев

133

Наиболее затронутая модель

Owl Alpha 1

Причины сбоев

Неверный ответ133 Ошибка API13 Нет ответа8

Категории

Предметно-ориентированное325 Анти-ИИ уловки250 Программирование201 Решение головоломок154 Эрудиция133 Следование инструкциям54 Комбинированный53 Общий интеллект36 Парсинг и извлечение данных35 Вызов инструментов2

133/133

Ранг	Модель	Компания	Количество Неверный ответ	Оценка категории	Общая стоимость	Тестов верно	Время ответа (среднее)
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 2.38s
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 2.50s
#131	North Mini Code none	Cohere	1	3.0	$0.000	0/1	37.4s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 37.4s
#140	Cobuddy medium	Baidu	1	3.0	$0.000	0/1	37.0s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 37.0s
#143	Ling-2.6-flash none	Inclusionai	1	3.0	$0.001	0/1	1.06s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.001 Время ответа (среднее) 1.06s
#158	Hy3 preview none	Tencent	1	3.0	$0.003	0/1	2.71s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.003 Время ответа (среднее) 2.71s
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.003 Время ответа (среднее) 306ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.004 Время ответа (среднее) 1.25s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.004 Время ответа (среднее) 778ms
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.004 Время ответа (среднее) 692ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.005 Время ответа (среднее) 588ms
#135	Qwen3.5-9B none	Qwen	1	3.0	$0.006	0/1	2.32s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.006 Время ответа (среднее) 2.32s
#139	GPT-4o-mini none	OpenAI	1	3.0	$0.006	0/1	794ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.006 Время ответа (среднее) 794ms
#142	Nemotron 3 Super none	NVIDIA	1	3.0	$0.007	0/1	8.94s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.007 Время ответа (среднее) 8.94s
#134	MiMo-V2.5 none	Xiaomi	1	3.0	$0.007	0/1	3.89s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.007 Время ответа (среднее) 3.89s

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь

Эрудиция: Неверный ответ

Фильтровать модели

Лучшие модели по Количество Неверный ответ

Количество Неверный ответ против Оценка

Лучшие модели по Время ответа (среднее)

Лучшие модели по Оценочная стоимость потерь