AI BENCHY Compare

Qwen: Qwen3.7 Max vs Z.ai: GLM 5.1

Сводка

Сравнение benchmark Qwen3.7 Max vs GLM 5.1: GLM 5.1 лидирует по среднему баллу: 7.1 vs 6.9. Qwen3.7 Max имеет более низкую стоимость benchmark: $0.054 vs $0.395. Qwen3.7 Max быстрее: 1.30s vs 33.67s, с долей успешных попыток 66.7% vs 68.3%.

Рекомендуемая модель: Qwen3.7 Max - Его балл близок к лучшему здесь (6.9 против 7.1), при этом он примерно в 7.3 раза дешевле, чем GLM 5.1.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-02

Метрика	Qwen3.7 Max Qwen3.7 Max none Релиз: 2026-05-22	GLM 5.1 GLM 5.1 medium Релиз: 2026-04-07

Метрика	Qwen3.7 Max Qwen3.7 Max none Релиз: 2026-05-22	GLM 5.1 GLM 5.1 medium Релиз: 2026-04-07
Оценка	6.9	7.1
Ранг	#71	#66
Надежность	10.0	6.7
Стабильность	10.0	8.3
Тестов верно
Доля успешных попыток	66.7%	68.3%
Нестабильные тесты	0	4
Всего запусков	63	63
Стоимость за результат	0.744	2.496
Общая стоимость	$0.054	$0.395
Цена входа	$1.250 / 1M	$0.975 / 1M
Цена выхода	$3.750 / 1M	$4.301 / 1M
Общее число входных токенов	37,107	32,995
Выходные токены	1,994	11,655
Токены рассуждений	0	75,421
Время ответа (среднее)	1.30s	33.67s
Время ответа (макс.)	3.92s	172.60s
Время ответа (суммарно)	27.21s	673.41s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#71 Qwen3.7 Max

none

Стоимость: $0.046
Время: 195.0s
Токены: 12,171 tok

#66 GLM 5.1

medium

Неверный SVG

Стоимость: $0.000
Время: 300.0s
Токены: 0 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	6.5	10.0	50.0%	0		1.08s	696	242	0
GLM 5.1	10.0	10.0	100.0%	0		8.31s	555	401	5,122

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	5.5	10.0	33.3%	0		1.35s	7,911	582	0
GLM 5.1	4.6	3.7	44.5%	2		109.63s	5,702	4,871	37,826

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	3.0	10.0	0.0%	0		2.17s	9,549	171	0
GLM 5.1	9.5	10.0	100.0%	0		43.11s	17,298	327	4,206

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		1.35s	7,794	243	0
GLM 5.1	10.0	10.0	100.0%	0		9.33s	7,107	991	4,552

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	7.7	10.0	66.7%	0		975ms	789	15	0
GLM 5.1	5.3	10.0	33.3%	0		29.77s	489	969	11,314

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		1.04s	522	120	0
GLM 5.1	10.0	10.0	100.0%	0		20.95s	477	2,875	2,875

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		943ms	711	72	0
GLM 5.1	6.4	5.8	66.7%	1		7.47s	634	204	1,617

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		1.13s	714	314	0
GLM 5.1	8.2	7.2	88.9%	1		31.64s	609	935	5,730

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		3.92s	8,211	222	0
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	3.0	10.0	0.0%	0		856ms	210	13	0
GLM 5.1	3.0	10.0	0.0%	0		29.40s	124	82	2,179

Быстрое сравнение

Сменить пару сравнения

Step 3.7 FlashhighvsGLM 5.1medium Gemini 3.5 FlashminimalvsQwen3.7 Maxnone Ring-2.6-1TmediumvsQwen3.7 Maxnone Qwen3.7 PlusnonevsGLM 5.1medium DeepSeek V4 PrononevsGLM 5.1medium Gemini 3.5 FlashnonevsGLM 5.1medium Qwen3.7 MaxnonevsMiMo-V2.5medium Claude Opus 4.8nonevsGLM 5.1medium Kimi K2.7 CodemediumvsQwen3.7 Maxnone gpt-oss-120bmediumБесплатно доступноvsQwen3.7 Maxnone Gemini 3 Flash PreviewnonevsGLM 5.1medium Laguna XS 2.1mediumБесплатно доступноvsQwen3.7 Maxnone