AI BENCHY Compare

OpenAI: GPT-4o-mini vs Z.ai: GLM 4.7 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-29

Метрика	GPT-4o-mini GPT-4o-mini none Релиз: 2024-07-18	GLM 4.7 Flash GLM 4.7 Flash medium Релиз: 2026-01-19

Метрика	GPT-4o-mini GPT-4o-mini none Релиз: 2024-07-18	GLM 4.7 Flash GLM 4.7 Flash medium Релиз: 2026-01-19
Оценка	4.9	4.5
Ранг	#144	#154
Надежность	10.0	10.0
Стабильность	9.9	6.7
Тестов верно
Доля успешных попыток	25.0%	35.0%
Нестабильные тесты	0	8
Всего запусков	60	60
Стоимость за результат	0.111	1.337
Общая стоимость	$0.006	$0.054
Цена входа	$0.150 / 1M	$0.060 / 1M
Цена выхода	$0.600 / 1M	$0.400 / 1M
Выходные токены	1,977	43,754
Токены рассуждений	0	89,079
Время ответа (среднее)	1.85s	35.10s
Время ответа (макс.)	7.58s	174.55s
Время ответа (суммарно)	24.00s	456.24s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	4.8	10.0	25.0%	0		1.34s	186	0
GLM 4.7 Flash	4.7	5.9	41.7%	2		14.95s	1,122	6,110

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	3.2	9.3	0.0%	0		2.05s	362	0
GLM 4.7 Flash	3.4	6.0	16.7%	1		55.33s	4,981	22,387

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	3.0	10.0	0.0%	0		7.58s	568	0
GLM 4.7 Flash	2.8	2.1	33.3%	1		65.57s	2,585	20,648

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	10.0	10.0	100.0%	0		1.27s	183	0
GLM 4.7 Flash	6.3	10.0	50.0%	0		1.51s	584	2,755

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	3.0	10.0	0.0%	0		637ms	15	0
GLM 4.7 Flash	3.5	4.4	33.3%	2		174.55s	33,000	25,394

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	4.0	10.0	0.0%	0		909ms	66	0
GLM 4.7 Flash	3.6	9.7	0.0%	0		18.14s	18	2,138

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	6.3	10.0	50.0%	0		1.11s	69	0
GLM 4.7 Flash	6.2	5.8	66.7%	1		2.97s	388	2,181

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	3.5	10.0	0.0%	0		1.21s	308	0
GLM 4.7 Flash	2.9	7.2	11.1%	1		12.93s	781	5,255

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	205	0
GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	224	1,014

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-4o-mini	3.0	10.0	0.0%	0		794ms	15	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		11.13s	71	1,197

Быстрое сравнение

Сменить пару сравнения

Ling-2.6-1TnonevsGLM 4.7 Flashmedium GPT-4o-mininonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium MiMo-V2-FlashnonevsGLM 4.7 Flashmedium Qwen3.5-9BnonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsGLM 4.7 Flashmedium Trinity Large PreviewnonevsGLM 4.7 Flashmedium Granite 4.1 8BnonevsGLM 4.7 Flashmedium Qwen3.6 35B A3BnonevsGLM 4.7 Flashmedium GPT-5.4 MininonevsGLM 4.7 Flashmedium MiMo-V2.5nonevsGLM 4.7 Flashmedium Mistral Small 4nonevsGLM 4.7 Flashmedium