AI BENCHY
Сравнить
❤️ Made by XCS

Название модели

StepFun: Step 3.5 Flash

Бенчмарки сгенерированы из тестовых наборов Aibenchy в : 19 февр. 2026 г.

Метрика StepFun: Step 3.5 Flash
Ранг#18
КомпанияStepfun
Score 4.92
Стабильность 7.34
Стоимость за результат 0.0000
Общая стоимость $0.00000
Тестов верно 5/12
Доля успешных попыток 58.3%
Нестабильные тесты 4
Выходные токены 46,871
Токены рассуждений 95,440

Разбивка по категориям

Категория Полностью пройденные тесты Score Стабильность Доля успешных попыток Нестабильные тесты Оценка рассуждения Стоимость
Anti-AI Tricks 1/2 5.50 5.81 83.3% 1 10.00 $0.00000
Data parsing and extraction 1/2 5.00 10.00 50.0% 0 9.75 $0.00000
Domain specific 1/3 4.00 7.21 44.4% 1 8.44 $0.00000
Instructions following 2/2 10.00 10.00 100.0% 0 9.67 $0.00000
Puzzle Solving 0/3 2.00 4.96 33.3% 2 9.22 $0.00000

Сравниваемые модели

Сравнить StepFun: Step 3.5 Flash с...

#17 · MiniMax

MiniMax: MiniMax M2.5

Рассуждение (medium)

Score: 5.08

Стабильность: 6.00

Доля успешных попыток: 61.1%

Нестабильные тесты: 6

Стоимость за результат: 4.0276

Тестов верно: 5/12

Общая стоимость: $0.20138

Сравнить

#19 · OpenAI

OpenAI: GPT-4o-mini

Без рассуждения

Score: 4.00

Стабильность: 9.98

Доля успешных попыток: 25.0%

Нестабильные тесты: 0

Стоимость за результат: 0.0576

Тестов верно: 3/12

Общая стоимость: $0.00173

Сравнить

#16 · Anthropic

Anthropic: Claude Opus 4.6

Рассуждение (medium)

Score: 5.42

Стабильность: 8.60

Доля успешных попыток: 55.5%

Нестабильные тесты: 2

Стоимость за результат: 12.8695

Тестов верно: 6/12

Общая стоимость: $0.77217

Сравнить

Быстрое сравнение

Сравнить StepFun: Step 3.5 Flash с...