AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Z.ai: GLM 5.1

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03	GLM 5.1 GLM 5.1 medium Релиз: 2026-04-07

Метрика	GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03	GLM 5.1 GLM 5.1 medium Релиз: 2026-04-07
Оценка	7.4	7.4
Ранг	#52	#51
Надежность	10.0	3.3
Стабильность	8.4	8.3
Тестов верно
Доля успешных попыток	68.3%	71.7%
Нестабильные тесты	4	4
Всего запусков	60	60
Стоимость за результат	3.342	2.379
Общая стоимость	$0.401	$0.286
???? ?????	$1.750 / 1M	$0.980 / 1M
???? ??????	$14.000 / 1M	$3.080 / 1M
Выходные токены	24,689	11,475
Токены рассуждений	0	71,876
Время ответа (среднее)	6.10s	32.22s
Время ответа (макс.)	18.33s	172.60s
Время ответа (суммарно)	121.99s	612.25s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	3,167	0
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3 Chat	6.9	6.2	66.7%	1		10.52s	4,772	0
GLM 5.1	4.7	1.6	66.7%	2		145.56s	4,727	34,384

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	942	0
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	8,264	0
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	319	0
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.29s	1,455	0
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	569	0
GLM 5.1	3.0	10.0	0.0%	0		29.40s	82	2,179

Быстрое сравнение

Сменить пару сравнения

GPT-5.3 ChatnonevsMiMo-V2.5medium Gemini 3.1 Flash LitelowvsGLM 5.1medium Kimi K2.6mediumvsGPT-5.3 Chatnone DeepSeek V4 FlashhighБесплатно доступноvsGPT-5.3 Chatnone Gemini 3.1 Flash LitelowvsGPT-5.3 Chatnone DeepSeek V4 FlashhighБесплатно доступноvsGLM 5.1medium GPT-5.3 ChatnonevsQwen3.5-Flashmedium GPT-5.3 ChatnonevsStep 3.5 Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium GPT-5.3 ChatnonevsQwen3.6 Flashmedium GPT-5.3 ChatnonevsGLM 5V Turbomedium Gemma 4 26B A4BmediumБесплатно доступноvsGPT-5.3 Chatnone