Рейтинг моделей по Эрудиция

Категория AI BENCHY

Посмотрите, какие AI-модели лучше всего справляются с Эрудиция, какие остаются надежными и где заметнее всего разница. Сортировать по: Тестов верно ↓.

Показано моделей

Среднее значение Оценка Эрудиция

3.1

Лучшая модель

Gemini 3.5 Flash 10.0

Причины сбоев

С причиной сбоя Неверный ответ133 С причиной сбоя Ошибка API13 С причиной сбоя Нет ответа8

169/169

Ранг	Модель	Компания	Оценка Эрудиция	Оценка	Общая стоимость	Тестов верно	Время ответа (среднее)
#151	Mercury 2 none	Inception	3.0	4.6	$0.011	0/1	548ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.011 Время ответа (среднее) 548ms
#152	Elephant Alpha none	Openrouter	3.0	4.6	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#153	Elephant Alpha medium	Openrouter	3.0	4.5	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#154	Hunter Alpha none	OpenRouter	0.0	4.5	$0.000	0/0	0ms
Всего тестов 0 Ошибочных тестов 0 Общая стоимость $0.000 Время ответа (среднее) 0ms
#155	Grok 4.20 none	X AI	0.0	4.4	$0.057	0/0	0ms
Всего тестов 0 Ошибочных тестов 0 Общая стоимость $0.057 Время ответа (среднее) 0ms
#156	Laguna Xs.2 medium	Poolside	3.0	4.3	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#157	GLM 4.7 Flash medium	Z.ai	3.0	4.3	$0.054	0/1	11.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.054 Время ответа (среднее) 11.1s
#158	Hy3 preview none	Tencent	3.0	4.3	$0.003	0/1	2.71s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.003 Время ответа (среднее) 2.71s
#159	MiMo-V2-Flash none	Xiaomi	3.0	4.3	$0.025	0/1	1.82s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.025 Время ответа (среднее) 1.82s
#160	Grok Build 0.1 none	X AI	3.0	4.2	$0.547	0/1	36.1s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.547 Время ответа (среднее) 36.1s
#161	Grok 4.1 Fast none	X AI	3.0	4.0	$0.008	0/1	731ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.008 Время ответа (среднее) 731ms
#162	Laguna Xs.2 none	Poolside	3.0	4.0	$0.000	0/1	0ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.000 Время ответа (среднее) 0ms
#163	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.003	0/1	306ms
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.003 Время ответа (среднее) 306ms
#164	gpt-oss-120b none	OpenAI	3.0	4.0	$0.010	0/1	47.3s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.010 Время ответа (среднее) 47.3s
#165	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/1	177.0s
Всего тестов 1 Ошибочных тестов 1 Общая стоимость $0.036 Время ответа (среднее) 177.0s

Рейтинг Эрудиция

Фильтровать модели

Лучшие модели по Оценка Эрудиция

Оценка Эрудиция vs общая стоимость

Лучшие модели по Время ответа (среднее)