Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs StepFun: Step 3.7 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-29

Метрика GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03 Step 3.7 Flash Step 3.7 Flash medium Релиз: 2026-05-29
Оценка 7.4 7.9
Ранг #57 #32
Надежность 10.0 9.9
Стабильность 8.4 9.2
Тестов верно
Доля успешных попыток 68.3% 71.7%
Нестабильные тесты 4 2
Всего запусков 60 58
Стоимость за результат 3.350 2.663
Общая стоимость $0.402 $0.347
Цена входа $1.750 / 1M $0.200 / 1M
Цена выхода $14.000 / 1M $1.150 / 1M
Выходные токены 24,757 294,481
Токены рассуждений 0 0
Время ответа (среднее) 6.13s 18.32s
Время ответа (макс.) 18.33s 113.98s
Время ответа (суммарно) 122.61s 366.45s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 6.7 8.1 58.3% 1 3.86s 3,167 0
Step 3.7 Flash 8.7 7.9 91.7% 1 9.65s 32,185 0
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 6.9 6.2 66.7% 1 10.52s 4,772 0
Step 3.7 Flash 8.2 6.7 83.3% 1 10.64s 19,320 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 10.0 10.0 100.0% 0 11.96s 2,614 0
Step 3.7 Flash 10.0 10.0 100.0% 0 9.06s 7,106 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.21s 942 0
Step 3.7 Flash 10.0 10.0 100.0% 0 2.75s 3,020 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 3.5 4.4 33.3% 2 13.01s 8,264 0
Step 3.7 Flash 7.7 10.0 66.7% 0 48.27s 70,347 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 4.6 10.0 0.0% 0 1.99s 319 0
Step 3.7 Flash 4.0 10.0 0.0% 0 6.85s 3,987 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 9.8 10.0 100.0% 0 3.51s 1,491 0
Step 3.7 Flash 9.8 10.0 100.0% 0 1.83s 2,166 0
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.99s 1,758 0
Step 3.7 Flash 5.7 9.9 33.3% 0 6.19s 15,071 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 10.0 10.0 100.0% 0 8.36s 861 0
Step 3.7 Flash 10.0 10.0 100.0% 0 4.16s 2,115 0
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
GPT-5.3 Chat 3.0 10.0 0.0% 0 4.38s 569 0
Step 3.7 Flash 3.0 10.0 0.0% 0 113.98s 139,164 0

Быстрое сравнение

Сменить пару сравнения