AI BENCHY
Advertise here

#32

Step 3.5 Flash

Stepfun Релиз: 2026-02-01 Проверено: 2026-05-08 15:30 stepfun/step-3.5-flash::none
(medium) (none)

Архивная модель: эта модель больше не обновляется и не тестируется на новых тестах.

Стабильность

10.0

Общее число выходных токенов

64,795

???? ?????

$0.090 / 1M

???? ??????

$0.300 / 1M

Тестов верно

Ошибочных тестов: 3

Доля успешных попыток: 66.7%

Нестабильные тесты

0

Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).

Время ответа (среднее)

39.03s

Время ответа (макс.): 114.12s

Время ответа (суммарно): 312.26s

История запусков

Проверено Оценка Надежность Тестов верно Общая стоимость Сравнить
2026-05-08 15:30 Добавлен новый тест 7.8 10.0 $0.020 Текущий запуск
2026-04-11 01:44 Первый зафиксированный запуск 3.0 Н/Д $0.000 Сравнить

Этот запуск использовал другой набор бенчмарков. Учитывайте изменения набора при чтении исторической динамики.

Сравнение запусков

ЗапускОценкаСтабильностьНадежностьТестов верноНестабильные тестыОбщее число выходных токеновОбщая стоимостьВремя ответа (среднее)
2026-05-08 15:30 · Текущий запуск7.810.010.06/9064,795$0.02039.03s
2026-04-11 01:44 · Первый зафиксированный запуск3.010.0Н/Д0/100$0.0000ms
Разница+4.80.0+90+64795+$0.020+39032ms

Эти два запуска использовали разные наборы бенчмарков, поэтому различия отражают и изменения модели, и изменения набора.

Графики

Выберите первую модель, затем нажмите вторую, чтобы открыть страницу сравнения бок о бок.

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Быстрое сравнение

Разбивка по категориям

Категория Оценка Стабильность Тестов верно
Анти-ИИ уловки 10.0 10.0
Программирование 3.0 10.0
Комбинированный 0.0 0.0
Парсинг и извлечение данных 0.0 0.0
Предметно-ориентированное 10.0 10.0
Общий интеллект 4.0 10.0
Следование инструкциям 10.0 10.0
Вызов инструментов 0.0 0.0
Эрудиция 3.0 10.0

Сравниваемые модели