Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

StepFun: Step 3.7 Flash vs Z.ai: GLM 5.1

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-29

Метрика Step 3.7 Flash Step 3.7 Flash low Релиз: 2026-05-29 GLM 5.1 GLM 5.1 medium Релиз: 2026-04-07
Оценка 7.4 7.4
Ранг #60 #56
Надежность 10.0 5.0
Стабильность 8.7 8.3
Тестов верно
Доля успешных попыток 68.3% 71.7%
Нестабильные тесты 3 4
Всего запусков 60 60
Стоимость за результат 2.796 2.382
Общая стоимость $0.336 $0.286
Цена входа $0.200 / 1M $0.980 / 1M
Цена выхода $1.150 / 1M $3.080 / 1M
Выходные токены 285,209 11,511
Токены рассуждений 0 71,979
Время ответа (среднее) 16.06s 33.45s
Время ответа (макс.) 124.75s 172.60s
Время ответа (суммарно) 321.11s 635.63s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Step 3.7 Flash 8.7 7.9 91.7% 1 4.02s 10,896 0
GLM 5.1 10.0 10.0 100.0% 0 8.31s 401 5,122
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Step 3.7 Flash 10.0 10.0 100.0% 0 9.43s 14,569 0
GLM 5.1 4.7 1.6 66.7% 2 145.56s 4,727 34,384
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Step 3.7 Flash 10.0 10.0 100.0% 0 7.98s 6,426 0
GLM 5.1 9.5 10.0 100.0% 0 43.11s 327 4,206
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Step 3.7 Flash 7.3 5.8 83.3% 1 2.29s 2,667 0
GLM 5.1 10.0 10.0 100.0% 0 9.33s 991 4,552
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Step 3.7 Flash 5.3 7.2 44.4% 1 43.31s 104,487 0
GLM 5.1 5.3 10.0 33.3% 0 29.77s 969 11,314
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Step 3.7 Flash 3.4 9.3 0.0% 0 7.00s 4,604 0
GLM 5.1 10.0 10.0 100.0% 0 20.95s 2,875 2,875
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Step 3.7 Flash 9.8 10.0 100.0% 0 1.58s 1,857 0
GLM 5.1 6.4 5.8 66.7% 1 7.47s 204 1,617
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Step 3.7 Flash 5.5 9.9 33.3% 0 1.84s 3,564 0
GLM 5.1 8.2 7.2 88.9% 1 31.64s 935 5,730
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Step 3.7 Flash 10.0 10.0 100.0% 0 3.25s 1,360 0
GLM 5.1 3.0 10.0 0.0% 0 0ms 0 0
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Step 3.7 Flash 3.0 10.0 0.0% 0 124.75s 134,779 0
GLM 5.1 3.0 10.0 0.0% 0 29.40s 82 2,179

Быстрое сравнение

Сменить пару сравнения