AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs MoonshotAI: Kimi K2.5

Сводка

Сравнение benchmark Claude Opus 4.8 vs Kimi K2.5: Claude Opus 4.8 лидирует по среднему баллу: 7.0 vs 6.8. Kimi K2.5 имеет более низкую стоимость benchmark: $0.328 vs $0.539. Claude Opus 4.8 быстрее: 3.47s vs 98.43s, с долей успешных попыток 61.9% vs 68.3%.

Рекомендуемая модель: Claude Opus 4.8 - Здесь у него лучший балл (7.0), и он отвечает примерно в 28.4 раза быстрее, чем Kimi K2.5.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-04

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Kimi K2.5 Kimi K2.5 medium Релиз: 2026-01-27

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Kimi K2.5 Kimi K2.5 medium Релиз: 2026-01-27
Оценка	7.0	6.8
Ранг	#68	#76
Надежность	10.0	10.0
Стабильность	9.2	6.9
Тестов верно
Доля успешных попыток	61.9%	68.3%
Нестабильные тесты	2	8
Всего запусков	63	63
Стоимость за результат	4.485	3.704
Общая стоимость	$0.539	$0.328
Цена входа	$5.000 / 1M	$0.400 / 1M
Цена выхода	$25.000 / 1M	$1.900 / 1M
Общее число входных токенов	67,104	34,312
Выходные токены	8,107	48,379
Токены рассуждений	0	157,747
Время ответа (среднее)	3.47s	98.43s
Время ответа (макс.)	17.73s	281.00s
Время ответа (суммарно)	72.90s	1378.03s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#68 Claude Opus 4.8

none

Cost: $0.053
Time: 22.0s
Tokens: 2,253 tok

#76 MoonshotAI: Kimi K2.5

medium

Cost: $0.030
Time: 58.6s
Tokens: 8,683 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Kimi K2.5	6.1	4.6	66.7%	2		217.49s	6,935	5,705	74,693

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	11,280	703	3,713

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	975	61	0
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.8nonevsMiniMax M3medium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsQwen3.6 Max Previewnone Claude Opus 4.8nonevsDeepSeek V3.2medium Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsGrok 4.20medium Claude Opus 4.8nonevsMiMo-V2-Flashmedium Claude Opus 4.8nonevsSeed-2.0-Minimedium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGemini 3.1 Flash Litelow