AI BENCHY Compare

OpenAI: gpt-oss-120b vs Z.ai: GLM 5.1

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно	GLM 5.1 GLM 5.1 none Релиз: 2026-04-07

Метрика	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно	GLM 5.1 GLM 5.1 none Релиз: 2026-04-07
Оценка	5.6	5.6
Ранг	#111	#113
Надежность	10.0	10.0
Стабильность	7.5	8.1
Тестов верно
Доля успешных попыток	46.7%	40.0%
Нестабильные тесты	6	5
Всего запусков	60	60
Стоимость за результат	0.171	0.941
Общая стоимость	$0.012	$0.057
???? ?????	$0.000 / 1M	$0.980 / 1M
???? ??????	$0.000 / 1M	$3.080 / 1M
Выходные токены	17,213	3,749
Токены рассуждений	46,706	0
Время ответа (среднее)	20.89s	4.16s
Время ответа (макс.)	68.16s	32.57s
Время ответа (суммарно)	271.54s	83.23s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	3.9	5.6	33.3%	1		47.24s	847	8,618
GLM 5.1	4.3	9.5	0.0%	0		6.33s	519	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799
GLM 5.1	9.8	10.0	100.0%	0		1.58s	66	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	3.2	4.7	22.2%	2		11.80s	1,508	2,092
GLM 5.1	6.1	7.8	44.4%	1		1.48s	152	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		26.51s	3,101	3,758
GLM 5.1	3.0	10.0	0.0%	0		2.34s	11	0

Быстрое сравнение

Сменить пару сравнения

Kimi K2.6nonevsgpt-oss-120bmediumБесплатно доступно DeepSeek V3.2nonevsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsMiMo-V2.5-Pronone gpt-oss-120bmediumБесплатно доступноvsGLM 4.7 Flashnone gpt-oss-120bmediumБесплатно доступноvsQwen3.6 Flashnone gpt-oss-120bmediumБесплатно доступноvsMiMo-V2-Pronone gpt-oss-120bmediumБесплатно доступноvsOwl Alphanone MiniMax M2.5mediumБесплатно доступноvsGLM 5.1none CobuddymediumБесплатно доступноvsGLM 5.1none Mistral Small 4mediumvsGLM 5.1none gpt-oss-120bmediumБесплатно доступноvsQwen3.6 27Bnone gpt-oss-120bmediumБесплатно доступноvsQwen3.5-27Bnone