AI BENCHY Compare

Qwen: Qwen3.5-122B-A10B vs Z.ai: GLM 4.7 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-01

Метрика	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none Релиз: 2026-02-24	GLM 4.7 Flash GLM 4.7 Flash medium Релиз: 2026-01-19

Метрика	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none Релиз: 2026-02-24	GLM 4.7 Flash GLM 4.7 Flash medium Релиз: 2026-01-19
Оценка	5.4	4.5
Ранг	#131	#155
Надежность	10.0	10.0
Стабильность	9.5	6.7
Тестов верно
Доля успешных попыток	33.3%	35.0%
Нестабильные тесты	1	8
Всего запусков	60	60
Стоимость за результат	0.380	1.337
Общая стоимость	$0.019	$0.054
Цена входа	$0.260 / 1M	$0.060 / 1M
Цена выхода	$2.080 / 1M	$0.400 / 1M
Выходные токены	3,374	43,754
Токены рассуждений	0	89,079
Время ответа (среднее)	3.38s	35.10s
Время ответа (макс.)	46.00s	174.55s
Время ответа (суммарно)	67.55s	456.24s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	4.8	10.0	25.0%	0		1.59s	312	0
GLM 4.7 Flash	4.7	5.9	41.7%	2		14.95s	1,122	6,110

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	4.0	5.5	33.3%	1		2.14s	684	0
GLM 4.7 Flash	3.4	6.0	16.7%	1		55.33s	4,981	22,387

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		46.00s	1,137	0
GLM 4.7 Flash	2.8	2.1	33.3%	1		65.57s	2,585	20,648

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		1.01s	243	0
GLM 4.7 Flash	6.3	10.0	50.0%	0		1.51s	584	2,755

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	5.3	10.0	33.3%	0		465ms	15	0
GLM 4.7 Flash	3.5	4.4	33.3%	2		174.55s	33,000	25,394

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	5.0	10.0	0.0%	0		1.12s	66	0
GLM 4.7 Flash	3.6	9.7	0.0%	0		18.14s	18	2,138

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	6.3	10.0	50.0%	0		513ms	69	0
GLM 4.7 Flash	6.2	5.8	66.7%	1		2.97s	388	2,181

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	3.8	10.0	0.0%	0		1.00s	575	0
GLM 4.7 Flash	2.9	7.2	11.1%	1		12.93s	781	5,255

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		2.04s	264	0
GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	224	1,014

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		295ms	9	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		11.13s	71	1,197

Быстрое сравнение

Сменить пару сравнения

Ling-2.6-1TnonevsGLM 4.7 Flashmedium MiniMax M2.7mediumvsQwen3.5-122B-A10Bnone Elephant AlphamediumvsQwen3.5-122B-A10Bnone Mistral Small 4mediumvsQwen3.5-122B-A10Bnone MiniMax M2.5mediumvsQwen3.5-122B-A10Bnone Mercury 2nonevsGLM 4.7 Flashmedium MiMo-V2-FlashnonevsGLM 4.7 Flashmedium Qwen3.5-9BnonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsGLM 4.7 Flashmedium Trinity Large PreviewnonevsGLM 4.7 Flashmedium Granite 4.1 8BnonevsGLM 4.7 Flashmedium CobuddymediumvsQwen3.5-122B-A10Bnone