AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs Z.ai: GLM 5V Turbo

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-01

Метрика	Qwen3.6 Max Preview Qwen3.6 Max Preview none Релиз: 2026-04-20	GLM 5V Turbo GLM 5V Turbo medium Релиз: 2026-04-01

Метрика	Qwen3.6 Max Preview Qwen3.6 Max Preview none Релиз: 2026-04-20	GLM 5V Turbo GLM 5V Turbo medium Релиз: 2026-04-01
Оценка	7.5	7.8
Ранг	#52	#44
Надежность	10.0	Н/Д
Стабильность	9.1	7.5
Тестов верно
Доля успешных попыток	68.5%	77.8%
Нестабильные тесты	2	6
Всего запусков	54	54
Стоимость за результат	0.752	2.643
Общая стоимость	$0.083	$0.291
???? ?????	$1.040 / 1M	$1.200 / 1M
???? ??????	$6.240 / 1M	$4.000 / 1M
Выходные токены	4,732	2,351
Токены рассуждений	0	58,941
Время ответа (среднее)	3.38s	14.96s
Время ответа (макс.)	20.51s	67.08s
Время ответа (суммарно)	60.83s	269.32s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	513	0
GLM 5V Turbo	7.2	6.1	75.0%	2		10.76s	587	7,872

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	5.0	2.0	66.7%	1		3.45s	426	0
GLM 5V Turbo	10.0	10.0	100.0%	0		13.78s	404	4,628

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	2,842	0
GLM 5V Turbo	6.9	3.8	66.7%	1		15.06s	403	2,523

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	243	0
GLM 5V Turbo	10.0	10.0	100.0%	0		9.60s	236	4,333

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	18	0
GLM 5V Turbo	5.3	7.2	44.4%	1		38.15s	32	29,035

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	76	0
GLM 5V Turbo	10.0	10.0	100.0%	0		11.09s	131	2,183

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.45s	69	0
GLM 5V Turbo	9.9	10.0	100.0%	0		3.74s	72	1,813

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.38s	323	0
GLM 5V Turbo	7.7	7.3	77.8%	1		10.91s	193	5,789

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	222	0
GLM 5V Turbo	7.0	3.7	66.7%	1		12.53s	293	765

Быстрое сравнение

Сменить пару сравнения

DeepSeek V4 FlashhighvsGLM 5V Turbomedium Seed-2.0-MinimediumvsQwen3.6 Max Previewnone GPT-5.4 NanomediumvsQwen3.6 Max Previewnone GPT-5.3 ChatnonevsGLM 5V Turbomedium GPT-5.2mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5V Turbomedium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone GPT-5.2 ChatnonevsGLM 5V Turbomedium Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium Kimi K2.6mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2.5medium