Сравнить Графики Методология

Язык:

❤️ Made by XCS

AI BENCHY Compare

StepFun: Step 3.5 Flash vs Z.ai: GLM 5

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика	StepFun: Step 3.5 Flash medium Релиз: 2026-02-01 Бесплатно доступно	Z.ai: GLM 5 medium Релиз: 2026-02-12
Ранг	#13	#14
Средний балл	7.4	7.4
Стабильность	9.1	8.0
Стоимость за результат	0.000	0.933
Общая стоимость	$0.000	$0.103
Тестов верно
Доля успешных попыток	68.8%	83.3%
Нестабильные тесты	2	4
Всего запусков	48 (16 x 3)	48 (16 x 3)
Выходные токены	71,452	19,773
Токены рассуждений	155,147	36,459
Время ответа (среднее)	29.10s	16.16s
Время ответа (макс.)	170.45s	28.96s
Время ответа (суммарно)	290.96s	129.26s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208
Z.ai: GLM 5	10.0	10.0	100.0%	0		22.26s	420	4,992

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984
Z.ai: GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886
Z.ai: GLM 5	5.0	5.6	83.3%	1		8.90s	567	3,734

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436
Z.ai: GLM 5	10.0	4.4	33.3%	2		0ms	13,176	14,137

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584
Z.ai: GLM 5	5.0	3.1	66.7%	1		14.69s	2,020	2,248

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412
Z.ai: GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835
Z.ai: GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802
Z.ai: GLM 5	10.0	10.0	100.0%	0		15.93s	233	994

Быстрое сравнение

Сменить пару сравнения

GPT-5.2 ChatnonevsGLM 5medium GPT-5.2 ChatnonevsStep 3.5 FlashmediumБесплатно доступно Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumБесплатно доступно GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsStep 3.5 FlashmediumБесплатно доступно Gemini 3 Flash PreviewnonevsGLM 5medium Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumБесплатно доступно Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumБесплатно доступно Claude Sonnet 4.6nonevsGLM 5medium Claude Sonnet 4.6nonevsStep 3.5 FlashmediumБесплатно доступно