Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs StepFun: Step 3.7 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-29

Метрика Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28 Step 3.7 Flash Step 3.7 Flash low Релиз: 2026-05-29
Оценка 7.3 7.4
Ранг #65 #60
Надежность 10.0 10.0
Стабильность 9.2 8.7
Тестов верно
Доля успешных попыток 65.0% 68.3%
Нестабильные тесты 2 3
Всего запусков 60 60
Стоимость за результат 4.324 2.796
Общая стоимость $0.519 $0.336
Цена входа $5.000 / 1M $0.200 / 1M
Цена выхода $25.000 / 1M $1.150 / 1M
Выходные токены 8,098 285,209
Токены рассуждений 0 0
Время ответа (среднее) 3.51s 16.06s
Время ответа (макс.) 17.73s 124.75s
Время ответа (суммарно) 70.19s 321.11s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 1,472 0
Step 3.7 Flash 8.7 7.9 91.7% 1 4.02s 10,896 0
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 6.8 10.0 50.0% 0 3.59s 1,323 0
Step 3.7 Flash 10.0 10.0 100.0% 0 9.43s 14,569 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 3,259 0
Step 3.7 Flash 10.0 10.0 100.0% 0 7.98s 6,426 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 308 0
Step 3.7 Flash 7.3 5.8 83.3% 1 2.29s 2,667 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 5.3 7.2 44.4% 1 1.66s 61 0
Step 3.7 Flash 5.3 7.2 44.4% 1 43.31s 104,487 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 230 0
Step 3.7 Flash 3.4 9.3 0.0% 0 7.00s 4,604 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 95 0
Step 3.7 Flash 9.8 10.0 100.0% 0 1.58s 1,857 0
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 783 0
Step 3.7 Flash 5.5 9.9 33.3% 0 1.84s 3,564 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 355 0
Step 3.7 Flash 10.0 10.0 100.0% 0 3.25s 1,360 0
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 212 0
Step 3.7 Flash 3.0 10.0 0.0% 0 124.75s 134,779 0

Быстрое сравнение

Сменить пару сравнения