AI BENCHY Compare

Mistral: Mistral Small 4 vs Z.ai: GLM 5.1

Сводка

GLM 5.1 лидирует по среднему баллу: 5.6 vs 5.1. GLM 5.1 имеет более низкую стоимость benchmark: $0.057 vs $0.068. GLM 5.1 быстрее: 4.10s vs 9.40s, с долей успешных попыток 44.4% vs 41.3%.

Рекомендуемая модельGLM 5.1Здесь у него лучший балл (5.6), и он отвечает примерно в 2.3 раза быстрее, чем Mistral Small 4 (medium).

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-14

Метрика	Mistral Small 4 Mistral Small 4 medium Релиз: 2026-03-16	GLM 5.1 GLM 5.1 none Релиз: 2026-04-07

Метрика	Mistral Small 4 Mistral Small 4 medium Релиз: 2026-03-16	GLM 5.1 GLM 5.1 none Релиз: 2026-04-07
Оценка	5.1	5.6
Ранг	#160	#141
Надежность	10.0	10.0
Стабильность	6.9	8.5
Тестов верно
Доля успешных попыток	44.4%	41.3%
Нестабильные тесты	8	4
Всего запусков	63	63
Стоимость за результат	1.344	0.843
Общая стоимость	$0.068	$0.057
Цена входа	$0.150 / 1M	$0.966 / 1M
Цена выхода	$0.600 / 1M	$3.036 / 1M
Общее число входных токенов	42,576	47,133
Выходные токены	24,184	3,754
Токены рассуждений	84,678	0
Время ответа (среднее)	9.40s	4.10s
Время ответа (макс.)	59.15s	32.57s
Время ответа (суммарно)	197.39s	86.18s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#160 Mistral Small 4

medium

Стоимость: $0.006
Время: 47.9s
Токены: 9,857 tok

#141 GLM 5.1

none

Неверный SVG

Стоимость: $0.000
Время: 300.0s
Токены: 0 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	5.6	3.8	66.7%	3		2.67s	708	4,055	4,778
GLM 5.1	4.0	6.3	25.0%	2		2.11s	555	305	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	4.4	5.1	33.3%	2		39.98s	7,636	11,635	54,715
GLM 5.1	3.9	9.7	0.0%	0		4.96s	7,256	525	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	3.0	10.0	0.0%	0		25.25s	18,706	2,612	10,700
GLM 5.1	2.8	2.1	33.3%	1		32.57s	22,831	2,129	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	7.3	5.9	83.3%	1		1.23s	6,171	335	723
GLM 5.1	10.0	10.0	100.0%	0		1.08s	7,107	204	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	5.3	7.2	44.4%	1		6.11s	742	2,621	6,904
GLM 5.1	2.9	7.2	11.1%	1		1.99s	687	24	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	4.8	10.0	0.0%	0		2.05s	519	821	828
GLM 5.1	5.0	10.0	0.0%	0		790ms	477	39	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	7.3	5.8	83.3%	1		1.38s	729	540	1,031
GLM 5.1	9.8	10.0	100.0%	0		1.98s	636	66	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	3.4	9.7	0.0%	0		2.17s	735	1,226	2,632
GLM 5.1	7.7	10.0	66.7%	0		1.45s	609	151	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	10.0	10.0	100.0%	0		3.50s	6,420	321	810
GLM 5.1	10.0	10.0	100.0%	0		10.68s	6,789	300	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mistral Small 4	3.0	10.0	0.0%	0		5.92s	210	18	1,557
GLM 5.1	3.0	10.0	0.0%	0		2.34s	186	11	0

Быстрое сравнение

Сменить пару сравнения