Навигация
AI BENCHY
Сравнить Графики
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Inception: Mercury 2 vs StepFun: Step 3.5 Flash

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-05

Метрика Inception: Mercury 2 none Релиз: 2026-02-24 StepFun: Step 3.5 Flash medium Релиз: 2026-02-01 Бесплатно доступно
Ранг #50 #16
Средний балл 34 75
Стабильность 89 90
Стоимость за результат 0.147 0.000
Общая стоимость $0.006 $0.000
Тестов верно
Доля успешных попыток 33.3% 73.3%
Нестабильные тесты 2 2
Выходные токены 1,144 69,238
Токены рассуждений 0 152,563

Лучшие модели по оценке

Оценка vs общая стоимость

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 100 100 0.0% 0 274 0
StepFun: Step 3.5 Flash 100 100 100.0% 0 13,924 17,208
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 100 100 0.0% 0 131 0
StepFun: Step 3.5 Flash 100 100 100.0% 0 1,176 12,984
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 55 59 83.3% 1 180 0
StepFun: Step 3.5 Flash 100 100 100.0% 0 600 13,886
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 40 72 44.4% 1 46 0
StepFun: Step 3.5 Flash 40 72 44.4% 1 45,350 90,436
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 55 100 50.0% 0 82 0
StepFun: Step 3.5 Flash 90 68 83.3% 1 2,284 3,412
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 100 100 0.0% 0 234 0
StepFun: Step 3.5 Flash 40 100 33.3% 0 5,629 10,835
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 100 100 100.0% 0 197 0
StepFun: Step 3.5 Flash 100 100 100.0% 0 275 3,802

Быстрое сравнение

Сменить пару сравнения