AI BENCHY Compare

xAI: Grok 4.3 vs Z.ai: GLM 5 Turbo

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01	GLM 5 Turbo GLM 5 Turbo medium Релиз: 2026-03-15

Метрика	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01	GLM 5 Turbo GLM 5 Turbo medium Релиз: 2026-03-15
Оценка	7.8	7.9
Ранг	#31	#28
Надежность	10.0	8.3
Стабильность	8.4	8.1
Тестов верно
Доля успешных попыток	75.0%	76.7%
Нестабильные тесты	4	5
Всего запусков	60	60
Стоимость за результат	4.562	1.872
Общая стоимость	$0.593	$0.244
???? ?????	$1.250 / 1M	$1.200 / 1M
???? ??????	$2.500 / 1M	$4.000 / 1M
Выходные токены	1,485	12,231
Токены рассуждений	214,928	53,558
Время ответа (среднее)	49.23s	22.69s
Время ответа (макс.)	216.69s	194.23s
Время ответа (суммарно)	984.54s	453.72s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207
GLM 5 Turbo	10.0	10.0	100.0%	0		4.82s	362	3,137

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	7.4	6.5	66.7%	1		55.26s	532	24,554
GLM 5 Turbo	7.3	5.8	83.3%	1		53.92s	346	16,607

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301
GLM 5 Turbo	10.0	10.0	100.0%	0		13.88s	390	2,037

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546
GLM 5 Turbo	10.0	10.0	100.0%	0		6.19s	577	3,632

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300
GLM 5 Turbo	2.9	4.4	22.2%	2		71.07s	9,665	19,279

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020
GLM 5 Turbo	6.1	3.1	66.7%	1		10.05s	60	2,216

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713
GLM 5 Turbo	10.0	10.0	100.0%	0		5.38s	255	2,183

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686
GLM 5 Turbo	8.7	7.9	77.8%	1		5.44s	315	2,702

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615
GLM 5 Turbo	10.0	10.0	100.0%	0		9.84s	241	446

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok 4.3	3.0	10.0	0.0%	0		44.47s	14	12,986
GLM 5 Turbo	3.0	10.0	0.0%	0		40.17s	20	1,319

Быстрое сравнение

Сменить пару сравнения

Qwen3.7 MaxnonevsGLM 5 Turbomedium Gemini 3.5 FlashminimalvsGLM 5 Turbomedium Qwen3.7 MaxnonevsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium GPT-5.2 ChatnonevsGrok 4.3medium Gemini 3.5 FlashminimalvsGrok 4.3medium Gemini 3 Flash PreviewnonevsGLM 5 Turbomedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5 Turbomedium GPT-5.2 ChatnonevsGLM 5 Turbomedium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.3medium Gemini 3.1 Flash LitelowvsGrok 4.3medium