AI BENCHY Compare

Inception: Mercury 2 vs Z.ai: GLM 5.1

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Mercury 2 Mercury 2 medium Релиз: 2026-02-24	GLM 5.1 GLM 5.1 none Релиз: 2026-04-07

Метрика	Mercury 2 Mercury 2 medium Релиз: 2026-02-24	GLM 5.1 GLM 5.1 none Релиз: 2026-04-07
Оценка	6.3	5.6
Ранг	#90	#113
Надежность	10.0	10.0
Стабильность	8.4	8.1
Тестов верно
Доля успешных попыток	50.0%	40.0%
Нестабильные тесты	4	5
Всего запусков	60	60
Стоимость за результат	0.687	0.941
Общая стоимость	$0.055	$0.057
???? ?????	$0.250 / 1M	$0.980 / 1M
???? ??????	$0.750 / 1M	$3.080 / 1M
Выходные токены	4,015	3,749
Токены рассуждений	58,382	0
Время ответа (среднее)	2.27s	4.16s
Время ответа (макс.)	14.63s	32.57s
Время ответа (суммарно)	43.15s	83.23s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	7.2	6.5	66.7%	1		2.29s	270	8,514
GLM 5.1	4.3	9.5	0.0%	0		6.33s	519	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
GLM 5.1	9.8	10.0	100.0%	0		1.58s	66	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	3.8	7.3	22.2%	1		934ms	354	2,758
GLM 5.1	6.1	7.8	44.4%	1		1.48s	152	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	3.0	10.0	0.0%	0		2.58s	22	3,748
GLM 5.1	3.0	10.0	0.0%	0		2.34s	11	0

Быстрое сравнение

Сменить пару сравнения

gpt-oss-120bmediumБесплатно доступноvsGLM 5.1none Mercury 2mediumvsGLM 5none Gemma 4 26B A4BnoneБесплатно доступноvsMercury 2medium Gemini 2.5 FlashnonevsMercury 2medium Mercury 2mediumvsMiMo-V2-Omninone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none MiniMax M2.5mediumБесплатно доступноvsGLM 5.1none CobuddymediumБесплатно доступноvsGLM 5.1none Mistral Small 4mediumvsGLM 5.1none Elephant AlphamediumvsGLM 5.1none DeepSeek V4 PrononevsMercury 2medium Owl AlphamediumvsGLM 5.1none