Навигация
AI BENCHY
Сравнить Графики
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Inception: Mercury 2 vs MiniMax: MiniMax M2.5

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-05

Метрика Inception: Mercury 2 medium Релиз: 2026-02-24 MiniMax: MiniMax M2.5 medium Релиз: 2026-02-12
Ранг #35 #42
Средний балл 54 48
Стабильность 83 58
Стоимость за результат 0.622 4.937
Общая стоимость $0.044 $0.247
Тестов верно
Доля успешных попыток 57.8% 62.2%
Нестабильные тесты 3 8
Выходные токены 3,571 107,019
Токены рассуждений 45,379 204,504

Лучшие модели по оценке

Оценка vs общая стоимость

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 73 98 66.7% 0 2,531 2,410
MiniMax: MiniMax M2.5 93 79 88.9% 1 286 45,112
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 100 100 100.0% 0 268 4,887
MiniMax: MiniMax M2.5 100 21 66.7% 1 740 9,713
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 55 59 83.3% 1 183 1,656
MiniMax: MiniMax M2.5 100 17 66.7% 2 266 3,835
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 100 72 11.1% 1 41 30,754
MiniMax: MiniMax M2.5 100 44 22.2% 2 105,047 133,487
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 100 100 100.0% 0 14 958
MiniMax: MiniMax M2.5 80 68 83.3% 1 252 1,873
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 17 75 22.2% 1 354 2,758
MiniMax: MiniMax M2.5 40 72 44.4% 1 159 9,547
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Выходные токены Токены рассуждений
Inception: Mercury 2 100 100 100.0% 0 180 1,956
MiniMax: MiniMax M2.5 100 100 100.0% 0 269 937

Быстрое сравнение

Сменить пару сравнения