AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Inception: Mercury 2

概要

Claude Opus 4.6 vs Mercury 2 の benchmark 比較: Claude Opus 4.6 が平均スコアでリードし、7.7 vs 7.5 です。 Mercury 2 の benchmark コストが低く、$0.058 vs $2.053 です。 Mercury 2 の方が高速で、2.24s vs 25.89s です、成功率は 61.9% vs 54.0% です。

おすすめモデル: Mercury 2 - スコアはここでの最高値に近く（7.5 vs 7.7）、Claude Opus 4.6 より約 35.6 倍低コストです。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-18

指標	Claude Opus 4.6 Claude Opus 4.6 medium リリース: 2026-02-05	Mercury 2 Mercury 2 medium リリース: 2026-02-24

指標	Claude Opus 4.6 Claude Opus 4.6 medium リリース: 2026-02-05	Mercury 2 Mercury 2 medium リリース: 2026-02-24
スコア	7.7	7.5
順位	#38	#44
信頼性	10.0	10.0
一貫性	8.8	8.8
正解テスト
試行ごとの合格率	61.9%	54.0%
不安定なテスト	3	3
総実行回数	63	63
結果あたりのコスト	17.103	0.578
合計コスト	$2.053	$0.058
入力価格	$5.000 / 1M	$0.250 / 1M
出力価格	$25.000 / 1M	$0.750 / 1M
合計入力トークン	53,227	35,116
出力トークン	47,446	4,048
推論トークン	24,000	61,219
応答時間（平均）	25.89s	2.24s
応答時間（最大）	83.40s	14.63s
応答時間（合計）	362.49s	44.72s

生成ショーケース

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.6

medium

無効なSVG

コスト: $0.000
時間: 300.0s
トークン: 0 tok

#44 Mercury 2

medium

コスト: $0.002
時間: 2.1s
トークン: 1,702 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
Mercury 2	8.2	7.7	77.8%	1		2.04s	7,065	296	11,328

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748

クイック比較

比較ペアを切り替え

Claude Opus 4.6mediumvsStep 3.7 Flashlow Mercury 2mediumvsGPT-5.3 Chatnone DeepSeek V4 ProhighvsMercury 2medium Claude Opus 4.6mediumvsDeepSeek V4 Prohigh Mercury 2mediumvsStep 3.7 Flashlow Gemini 3 Flash PreviewlowvsMercury 2medium Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsMercury 2medium Claude Opus 4.8nonevsMercury 2medium Claude Opus 4.6mediumvsGemini 3 Flash Previewlow DeepSeek V4 PrononevsMercury 2medium Mercury 2mediumvsQwen3.7 Plusnone