AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Z.ai: GLM 5.1

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	DeepSeek V4 Pro DeepSeek V4 Pro none Релиз: 2026-04-24	GLM 5.1 GLM 5.1 none Релиз: 2026-04-07

Метрика	DeepSeek V4 Pro DeepSeek V4 Pro none Релиз: 2026-04-24	GLM 5.1 GLM 5.1 none Релиз: 2026-04-07
Оценка	6.0	5.6
Ранг	#95	#113
Надежность	8.1	10.0
Стабильность	8.9	8.1
Тестов верно
Доля успешных попыток	48.3%	40.0%
Нестабильные тесты	3	5
Всего запусков	60	60
Стоимость за результат	0.564	0.941
Общая стоимость	$0.046	$0.057
???? ?????	$0.435 / 1M	$0.980 / 1M
???? ??????	$0.870 / 1M	$3.080 / 1M
Выходные токены	5,347	3,749
Токены рассуждений	0	0
Время ответа (среднее)	13.48s	4.16s
Время ответа (макс.)	58.65s	32.57s
Время ответа (суммарно)	269.56s	83.23s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V4 Pro	3.5	8.0	16.7%	1		14.02s	704	0
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V4 Pro	5.4	6.8	33.3%	1		8.27s	527	0
GLM 5.1	4.3	9.5	0.0%	0		6.33s	519	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V4 Pro	9.5	10.0	100.0%	0		25.49s	1,911	0
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V4 Pro	8.8	10.0	100.0%	0		30.54s	170	0
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.17s	18	0
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V4 Pro	4.3	9.9	0.0%	0		3.75s	132	0
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V4 Pro	6.3	10.0	50.0%	0		8.23s	64	0
GLM 5.1	9.8	10.0	100.0%	0		1.58s	66	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V4 Pro	7.6	7.2	77.8%	1		19.72s	175	0
GLM 5.1	6.1	7.8	44.4%	1		1.48s	152	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V4 Pro	10.0	10.0	100.0%	0		5.92s	219	0
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V4 Pro	3.0	10.0	0.0%	0		15.59s	1,427	0
GLM 5.1	3.0	10.0	0.0%	0		2.34s	11	0

Быстрое сравнение

Сменить пару сравнения

gpt-oss-120bmediumБесплатно доступноvsGLM 5.1none DeepSeek V4 PrononevsGPT-5 Nanomedium DeepSeek V4 PrononevsNemotron 3 SupermediumБесплатно доступно MiniMax M2.5mediumБесплатно доступноvsGLM 5.1none CobuddymediumБесплатно доступноvsGLM 5.1none Mistral Small 4mediumvsGLM 5.1none DeepSeek V4 PrononevsOwl Alphamedium Elephant AlphamediumvsGLM 5.1none DeepSeek V4 PrononevsMercury 2medium Owl AlphamediumvsGLM 5.1none CobuddymediumБесплатно доступноvsDeepSeek V4 Pronone Nemotron 3 SupermediumБесплатно доступноvsGLM 5.1none