Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Inception: Mercury 2 vs MoonshotAI: Kimi K2.5

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-03

Метрика Mercury 2 Mercury 2 medium Релиз: 2026-02-24 Kimi K2.5 Kimi K2.5 medium Релиз: 2026-01-27
Оценка 6.5 6.7
Ранг #89 #81
Надежность 10.0 10.0
Стабильность 8.8 6.8
Тестов верно
Доля успешных попыток 51.7% 66.7%
Нестабильные тесты 3 8
Всего запусков 60 60
Стоимость за результат 0.611 3.486
Общая стоимость $0.055 $0.272
Цена входа $0.250 / 1M $0.400 / 1M
Цена выхода $0.750 / 1M $1.900 / 1M
Общее число входных токенов 32,570 31,717
Выходные токены 4,022 48,374
Токены рассуждений 58,405 128,473
Время ответа (среднее) 2.27s 89.02s
Время ответа (макс.) 14.63s 281.00s
Время ответа (суммарно) 43.20s 1157.32s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 6.9 9.9 50.0% 0 1.12s 554 2,546 2,609
Kimi K2.5 7.3 5.8 83.3% 2 51.38s 634 2,789 8,880
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 7.2 6.5 66.7% 1 2.29s 4,519 270 8,514
Kimi K2.5 4.1 1.9 50.0% 2 215.89s 4,340 5,700 45,419
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 10.0 10.0 100.0% 0 3.28s 12,909 268 4,887
Kimi K2.5 10.0 10.0 100.0% 0 71.37s 11,280 703 3,713
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 7.3 5.9 83.3% 1 1.11s 6,234 183 1,656
Kimi K2.5 10.0 10.0 100.0% 0 49.78s 7,020 563 7,940
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 2.9 7.2 11.1% 1 6.48s 695 41 30,754
Kimi K2.5 3.5 4.4 33.3% 2 137.29s 485 20,753 30,564
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 4.8 10.0 0.0% 0 821ms 456 137 542
Kimi K2.5 6.5 3.4 66.7% 1 69.73s 480 3,815 4,262
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 10.0 10.0 100.0% 0 1.07s 340 14 958
Kimi K2.5 10.0 10.0 100.0% 0 92.47s 675 5,371 6,547
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 5.4 10.0 33.3% 0 949ms 601 361 2,781
Kimi K2.5 5.3 7.3 44.4% 1 43.23s 659 8,426 12,692
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 10.0 10.0 100.0% 0 1.89s 6,080 180 1,956
Kimi K2.5 10.0 10.0 100.0% 0 31.74s 5,933 242 812
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Mercury 2 3.0 10.0 0.0% 0 2.58s 182 22 3,748
Kimi K2.5 3.0 10.0 0.0% 0 83.95s 211 12 7,644

Быстрое сравнение

Сменить пару сравнения