AI BENCHY Compare

xAI: Grok 4.3 vs Z.ai: GLM 5

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-01

Метрика	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01	GLM 5 GLM 5 medium Релиз: 2026-02-12

Метрика	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01	GLM 5 GLM 5 medium Релиз: 2026-02-12
Оценка	8.2	8.4
Ранг	#20	#18
Надежность	10.0	Н/Д
Стабильность	8.6	8.2
Тестов верно
Доля успешных попыток	81.5%	85.2%
Нестабильные тесты	3	4
Всего запусков	54	54
Стоимость за результат	3.974	1.188
Общая стоимость	$0.517	$0.155
???? ?????	$1.250 / 1M	$0.600 / 1M
???? ??????	$2.500 / 1M	$2.080 / 1M
Выходные токены	1,223	20,163
Токены рассуждений	187,047	58,337
Время ответа (среднее)	48.63s	23.34s
Время ответа (макс.)	216.69s	79.09s
Время ответа (суммарно)	875.27s	233.40s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207
GLM 5	10.0	10.0	100.0%	0		23.66s	480	7,056

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	10.0	10.0	100.0%	0		45.72s	284	9,659
GLM 5	10.0	10.0	100.0%	0		79.09s	330	19,814

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686
GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994

Быстрое сравнение

Сменить пару сравнения

HY3 PreviewlowБесплатно доступноvsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium HY3 PreviewhighБесплатно доступноvsGLM 5medium HY3 PreviewlowБесплатно доступноvsGLM 5medium Gemini 3 Flash PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium GPT-5.2 ChatnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.3medium GPT-5.3 ChatnonevsGrok 4.3medium HY3 PreviewhighБесплатно доступноvsGrok 4.3medium DeepSeek V4 FlashhighvsGrok 4.3medium