Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs StepFun: Step 3.7 Flash

Сводка

Сравнение benchmark Qwen3.6 Max Preview vs Step 3.7 Flash: Qwen3.6 Max Preview лидирует по среднему баллу: 8.5 vs 7.3. Step 3.7 Flash имеет более низкую стоимость benchmark: $0.341 vs $0.960. Step 3.7 Flash быстрее: 15.74s vs 59.63s, с долей успешных попыток 81.0% vs 68.3%.

Рекомендуемая модель: Step 3.7 Flash - Он дает лучший общий компромисс: конкурентный балл (7.3), ниже стоимость, чем у Qwen3.6 Max Preview, и сбалансированное время ответа.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-10

Метрика Qwen3.6 Max Preview Qwen3.6 Max Preview medium Релиз: 2026-04-20 Step 3.7 Flash Step 3.7 Flash low Релиз: 2026-05-29
Оценка 8.5 7.3
Ранг #15 #58
Надежность 10.0 10.0
Стабильность 9.3 8.4
Тестов верно
Доля успешных попыток 81.0% 68.3%
Нестабильные тесты 2 4
Всего запусков 63 63
Стоимость за результат 7.024 2.840
Общая стоимость $0.960 $0.341
Цена входа $1.040 / 1M $0.200 / 1M
Цена выхода $6.240 / 1M $1.150 / 1M
Общее число входных токенов 42,362 40,101
Выходные токены 2,273 289,325
Токены рассуждений 144,367 0
Время ответа (среднее) 59.63s 15.74s
Время ответа (макс.) 238.07s 124.75s
Время ответа (суммарно) 1252.17s 330.63s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#15 Qwen3.6 Max Preview

medium
Cost
$0.024
Time
76.5s
Tokens
3,861 tok

#58 Step 3.7 Flash

low
Invalid SVG
Cost
$0.004
Time
25.3s
Tokens
3,072 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 22.13s 672 228 10,075
Step 3.7 Flash 8.7 7.9 91.7% 1 4.02s 756 10,896 0
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Qwen3.6 Max Preview 8.8 7.8 88.9% 1 146.48s 7,895 427 52,957
Step 3.7 Flash 8.2 7.2 88.9% 1 9.46s 7,437 18,685 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 121.49s 14,934 390 14,575
Step 3.7 Flash 10.0 10.0 100.0% 0 7.98s 13,683 6,426 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 41.15s 7,782 270 10,106
Step 3.7 Flash 7.3 5.8 83.3% 1 2.29s 7,398 2,667 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Qwen3.6 Max Preview 2.9 7.2 11.1% 1 95.91s 771 60 30,371
Step 3.7 Flash 5.3 7.2 44.4% 1 43.31s 828 104,487 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 32.24s 516 129 3,510
Step 3.7 Flash 3.4 9.3 0.0% 0 7.00s 525 4,604 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 24.31s 699 103 5,848
Step 3.7 Flash 9.8 10.0 100.0% 0 1.58s 735 1,857 0
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 24.32s 696 329 7,693
Step 3.7 Flash 5.5 9.9 33.3% 0 1.84s 756 3,564 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Qwen3.6 Max Preview 10.0 10.0 100.0% 0 18.32s 8,193 309 1,571
Step 3.7 Flash 10.0 10.0 100.0% 0 3.25s 7,746 1,360 0
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Qwen3.6 Max Preview 3.0 10.0 0.0% 0 60.56s 204 28 7,661
Step 3.7 Flash 3.0 10.0 0.0% 0 124.75s 237 134,779 0

Быстрое сравнение

Сменить пару сравнения