Навигация
AI BENCHY
Your ad here

AI BENCHY Compare

OpenAI: gpt-oss-120b vs StepFun: Step 3.5 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-11

Метрика gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно Step 3.5 Flash Step 3.5 Flash none Релиз: 2026-02-01
Оценка 5.8 3.0
Ранг #65 #93
Стабильность 7.2 10.0
Тестов верно
Доля успешных попыток 51.9% 0.0%
Нестабильные тесты 6 0
Всего запусков 54 3
Стоимость за результат 0.144 0.000
Общая стоимость $0.011 $0.000
???? ????? $0.039 / 1M $0.100 / 1M
???? ?????? $0.190 / 1M $0.300 / 1M
Выходные токены 13,493 0
Токены рассуждений 36,879 0
Время ответа (среднее) 16.08s 0ms
Время ответа (макс.) 50.92s 0ms
Время ответа (суммарно) 176.88s 0ms

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
gpt-oss-120b 6.7 9.9 50.0% 0 10.21s 3,518 2,177
Step 3.5 Flash - - - - - - - -
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
gpt-oss-120b 4.3 1.1 66.7% 1 26.33s 228 2,549
Step 3.5 Flash 3.0 10.0 0.0% 0 0ms 0 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
gpt-oss-120b 10.0 10.0 100.0% 0 31.18s 694 5,072
Step 3.5 Flash - - - - - - - -
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
gpt-oss-120b 6.4 5.9 66.7% 1 1.98s 241 1,114
Step 3.5 Flash - - - - - - - -
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
gpt-oss-120b 2.9 4.4 22.2% 2 50.92s 6,784 20,606
Step 3.5 Flash - - - - - - - -
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
gpt-oss-120b 4.3 10.0 0.0% 0 7.90s 107 387
Step 3.5 Flash - - - - - - - -
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
gpt-oss-120b 9.9 10.0 100.0% 0 7.63s 126 1,799
Step 3.5 Flash - - - - - - - -
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
gpt-oss-120b 3.2 4.7 22.2% 2 11.80s 1,508 2,092
Step 3.5 Flash - - - - - - - -
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
gpt-oss-120b 9.8 10.0 100.0% 0 6.91s 287 1,083
Step 3.5 Flash - - - - - - - -

Быстрое сравнение

Сменить пару сравнения