Рейтинг моделей по Эрудиция

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Эрудиция, какие остаются надежными и где заметнее всего разница. Сортировать по: Общая стоимость ↓.

Показано моделей

Среднее значение Оценка Эрудиция

3.1

Лучшая модель

Grok 4.20 Multi Agent Beta 0.0

Причины сбоев

С причиной сбоя Неверный ответ133 С причиной сбоя Ошибка API13 С причиной сбоя Нет ответа8

169/169

Ранг	Модель	Компания	Оценка Эрудиция	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#109	Mimo V2 PRO none	Xiaomi	3.0	5.8	$0.045	0/1	1.63s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.045 Время ответа (среднее) 1.63s
#59	Gemma 4 26B A4B medium	Google	3.0	7.2	$0.045	0/1	180.9s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.045 Время ответа (среднее) 180.9s
#48	DeepSeek V3.2 medium	DeepSeek	3.0	7.5	$0.044	0/1	84.0s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.044 Время ответа (среднее) 84.0s
#50	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.4	$0.044	0/1	56.8s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.044 Время ответа (среднее) 56.8s
#62	MiMo-V2-Flash medium	Xiaomi	3.0	7.1	$0.043	0/1	1.96s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.043 Время ответа (среднее) 1.96s
#124	GPT-5.4 Mini none	OpenAI	3.0	5.3	$0.038	0/1	1.33s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.038 Время ответа (среднее) 1.33s
#165	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/1	177.0s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.036 Время ответа (среднее) 177.0s
#58	DeepSeek V4 Pro none	DeepSeek	3.0	7.2	$0.034	0/1	5.76s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.034 Время ответа (среднее) 5.76s
#72	Ring-2.6-1T medium	Inclusionai	3.0	6.8	$0.033	0/1	113.9s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.033 Время ответа (среднее) 113.9s
#88	Gemma 4 31B medium	Google	3.0	6.3	$0.033	0/1	90.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.033 Время ответа (среднее) 90.1s
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	3.0	5.5	$0.032	0/1	33.3s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.032 Время ответа (среднее) 33.3s
#128	Qwen3.6 35B A3B none	Qwen	3.0	5.2	$0.031	0/1	414ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.031 Время ответа (среднее) 414ms
#120	Qwen3.6 27B none	Qwen	3.0	5.5	$0.028	0/1	4.03s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.028 Время ответа (среднее) 4.03s
#85	Gemini 3.1 Flash Lite low	Google	3.0	6.4	$0.028	0/1	1.46s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.028 Время ответа (среднее) 1.46s
#118	Kimi K2.5 none	Moonshot AI	3.0	5.5	$0.027	0/1	3.90s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.027 Время ответа (среднее) 3.90s

Рейтинг Эрудиция

Фильтровать модели

Лучшие модели по Оценка Эрудиция

Оценка Эрудиция vs общая стоимость

Лучшие модели по Время ответа (среднее)