AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs MoonshotAI: Kimi K2.5

概要

Claude Opus 4.8 vs Kimi K2.5 の benchmark 比較: Claude Opus 4.8 が平均スコアでリードし、7.0 vs 6.8 です。 Kimi K2.5 の benchmark コストが低く、$0.328 vs $0.539 です。 Claude Opus 4.8 の方が高速で、3.47s vs 98.43s です、成功率は 61.9% vs 68.3% です。

おすすめモデル: Claude Opus 4.8 - ここでは最高スコア（7.0）で、Kimi K2.5 より約 28.4 倍速く応答します。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-04

指標	Claude Opus 4.8 Claude Opus 4.8 none リリース: 2026-05-28	Kimi K2.5 Kimi K2.5 medium リリース: 2026-01-27

指標	Claude Opus 4.8 Claude Opus 4.8 none リリース: 2026-05-28	Kimi K2.5 Kimi K2.5 medium リリース: 2026-01-27
スコア	7.0	6.8
順位	#68	#76
信頼性	10.0	10.0
一貫性	9.2	6.9
正解テスト
試行ごとの合格率	61.9%	68.3%
不安定なテスト	2	8
総実行回数	63	63
結果あたりのコスト	4.485	3.704
合計コスト	$0.539	$0.328
入力価格	$5.000 / 1M	$0.400 / 1M
出力価格	$25.000 / 1M	$1.900 / 1M
合計入力トークン	67,104	34,312
出力トークン	8,107	48,379
推論トークン	0	157,747
応答時間（平均）	3.47s	98.43s
応答時間（最大）	17.73s	281.00s
応答時間（合計）	72.90s	1378.03s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#68 Claude Opus 4.8

none

Cost: $0.053
Time: 22.0s
Tokens: 2,253 tok

#76 MoonshotAI: Kimi K2.5

medium

Cost: $0.030
Time: 58.6s
Tokens: 8,683 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Kimi K2.5	6.1	4.6	66.7%	2		217.49s	6,935	5,705	74,693

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	11,280	703	3,713

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	975	61	0
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644

クイック比較

比較ペアを切り替え

Claude Opus 4.8nonevsMiniMax M3medium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsQwen3.6 Max Previewnone Claude Opus 4.8nonevsDeepSeek V3.2medium Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsGrok 4.20medium Claude Opus 4.8nonevsMiMo-V2-Flashmedium Claude Opus 4.8nonevsSeed-2.0-Minimedium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGemini 3.1 Flash Litelow