Сравнить Графики

Язык:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs MoonshotAI: Kimi K2.5

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-05

Метрика	Inception: Mercury 2 none Релиз: 2026-02-24	MoonshotAI: Kimi K2.5 medium Релиз: 2026-01-27
Ранг	#50	#29
Средний балл	3.4	6.4
Тестов верно
Стабильность	8.9	7.8
Стоимость за результат	0.147	2.082
Общая стоимость	$0.006	$0.188
Доля успешных попыток	33.3%	73.3%
Нестабильные тесты	2	4
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Выходные токены	1,144	34,638
Токены рассуждений	0	68,234
Время ответа (среднее)	594ms	69.84s
Время ответа (макс.)	1.27s	137.29s
Время ответа (суммарно)	8.91s	558.72s

Лучшие модели по оценке

Время ответа (среднее)

Оценка vs общая стоимость

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	0.0%	0		466ms	274	0
MoonshotAI: Kimi K2.5	7.0	7.2	88.9%	1		85.28s	335	6,255

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	0.0%	0		606ms	131	0
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	5.5	5.9	83.3%	1		667ms	180	0
MoonshotAI: Kimi K2.5	9.9	10.0	100.0%	0		49.78s	563	7,940

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	4.0	7.2	44.4%	1		534ms	46	0
MoonshotAI: Kimi K2.5	10.0	4.4	33.3%	2		137.29s	20,753	30,564

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	5.5	10.0	50.0%	0		551ms	82	0
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	0.0%	0		533ms	234	0
MoonshotAI: Kimi K2.5	4.0	7.3	44.4%	1		45.40s	6,671	12,403

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Inception: Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812

Быстрое сравнение

Сменить пару сравнения

Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Claude Sonnet 4.6nonevsKimi K2.5medium Gemini 3 Flash PreviewnonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsKimi K2.5medium Gemini 2.5 FlashnonevsKimi K2.5medium DeepSeek V3.2nonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.2 Chatnone