AI BENCHY Compare

Сравниваемые модели

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-07

Метрика	GLM 5 GLM 5 medium Релиз: 2026-02-12	GLM 5.1 GLM 5.1 medium Релиз: 2026-04-07	GLM 5 GLM 5 none Релиз: 2026-02-12	GLM 5.1 GLM 5.1 none Релиз: 2026-04-07

Метрика	GLM 5 GLM 5 medium Релиз: 2026-02-12	GLM 5.1 GLM 5.1 medium Релиз: 2026-04-07	GLM 5 GLM 5 none Релиз: 2026-02-12	GLM 5.1 GLM 5.1 none Релиз: 2026-04-07
Оценка	8.3	8.0	6.7	5.6
Ранг	#15	#23	#50	#67
Стабильность	8.1	9.0	10.0	8.2
Тестов верно
Доля успешных попыток	84.3%	76.5%	52.9%	39.2%
Нестабильные тесты	4	2	0	4
Всего запусков	51	51	51	51
Стоимость за результат	0.896	1.270	0.201	1.000
Общая стоимость	$0.108	$0.153	$0.019	$0.050
???? ?????	$0.720 / 1M	$1.000 / 1M	$0.720 / 1M	$1.000 / 1M
???? ??????	$2.300 / 1M	$3.200 / 1M	$2.300 / 1M	$3.200 / 1M
Выходные токены	19,833	6,666	1,551	3,219
Токены рассуждений	38,523	35,313	0	0
Время ответа (среднее)	17.15s	18.23s	3.77s	4.01s
Время ответа (макс.)	28.96s	43.11s	11.07s	32.57s
Время ответа (суммарно)	154.32s	291.73s	37.66s	68.23s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GLM 5	10.0	10.0	100.0%	0		23.66s	480	7,056
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122
GLM 5	4.8	10.0	25.0%	0		2.37s	275	0
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206
GLM 5	3.0	10.0	0.0%	0		4.98s	406	0
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552
GLM 5	10.0	10.0	100.0%	0		5.78s	203	0
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314
GLM 5	3.0	10.0	0.0%	0		2.24s	19	0
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875
GLM 5	10.0	10.0	100.0%	0		3.27s	103	0
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617
GLM 5	10.0	10.0	100.0%	0		1.48s	61	0
GLM 5.1	8.3	10.0	50.0%	0		1.58s	66	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627
GLM 5	7.7	10.0	66.7%	0		2.05s	264	0
GLM 5.1	5.7	10.0	33.3%	0		1.48s	152	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0
GLM 5	10.0	10.0	100.0%	0		11.07s	220	0
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

Быстрое сравнение

Сменить пару сравнения

Gemini 3 Flash PreviewnonevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewlowvsGLM 5.1medium Mistral Small 4mediumvsGLM 5.1none GPT-5 MinimediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium Nemotron 3 SupermediumБесплатно доступноvsGLM 5none GPT-5.2 ChatnonevsGLM 5.1medium Grok 4.1 FastmediumvsGLM 5none MiniMax M2.5mediumБесплатно доступноvsGLM 5.1none Hunter AlphamediumvsGLM 5none Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Gemini 3 Flash PreviewnonevsGLM 5medium