AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs Z.ai: GLM 5

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-27

Метрика	Qwen3.6 Max Preview Qwen3.6 Max Preview medium Релиз: 2026-04-20	GLM 5 GLM 5 medium Релиз: 2026-02-12

Метрика	Qwen3.6 Max Preview Qwen3.6 Max Preview medium Релиз: 2026-04-20	GLM 5 GLM 5 medium Релиз: 2026-02-12
Оценка	8.8	8.4
Ранг	#8	#18
Надежность	10.0	Н/Д
Стабильность	9.5	8.2
Тестов верно
Доля успешных попыток	85.2%	85.2%
Нестабильные тесты	1	4
Всего запусков	54	54
Стоимость за результат	5.486	1.188
Общая стоимость	$0.823	$0.155
???? ?????	$1.300 / 1M	$0.600 / 1M
???? ??????	$7.800 / 1M	$2.080 / 1M
Выходные токены	2,158	20,163
Токены рассуждений	97,495	58,337
Время ответа (среднее)	48.31s	23.34s
Время ответа (макс.)	186.74s	79.09s
Время ответа (суммарно)	869.64s	233.40s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		22.13s	228	10,075
GLM 5	10.0	10.0	100.0%	0		23.66s	480	7,056

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		117.87s	368	13,790
GLM 5	10.0	10.0	100.0%	0		79.09s	330	19,814

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		121.49s	390	14,575
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		41.15s	270	10,106
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	2.9	7.2	11.1%	1		95.91s	60	30,371
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		32.24s	129	3,510
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.31s	103	5,848
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.19s	301	7,649
GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		18.32s	309	1,571
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994

Быстрое сравнение

Сменить пару сравнения

Gemini 3 Flash PreviewlowvsQwen3.6 Max Previewmedium HY3 PreviewhighБесплатно доступноvsGLM 5medium GPT-5.5lowvsQwen3.6 Max Previewmedium HY3 PreviewlowБесплатно доступноvsGLM 5medium Gemini 3 Flash PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Qwen3.6 Max PreviewmediumvsHY3 PreviewhighБесплатно доступно Claude Opus 4.7nonevsQwen3.6 Max Previewmedium Gemini 3 Flash PreviewlowvsGLM 5medium GPT-5.2 ChatnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium DeepSeek V4 FlashhighvsGLM 5medium