AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Google: Gemini 3.5 Flash

概要

Claude Opus 4.7 vs Gemini 3.5 Flash の benchmark 比較: Gemini 3.5 Flash が平均スコアでリードし、9.2 vs 8.7 です。 Gemini 3.5 Flash の benchmark コストが低く、$0.349 vs $0.679 です。 Gemini 3.5 Flash の方が高速で、3.27s vs 4.73s です、成功率は 82.5% vs 90.5% です。

おすすめモデル: Gemini 3.5 Flash - ここでは最高スコア（9.2）で、Claude Opus 4.7 より約 1.9 倍低コストです。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-07-02

指標	Claude Opus 4.7 Claude Opus 4.7 medium リリース: 2026-04-16	Gemini 3.5 Flash Gemini 3.5 Flash low リリース: 2026-05-19

指標	Claude Opus 4.7 Claude Opus 4.7 medium リリース: 2026-04-16	Gemini 3.5 Flash Gemini 3.5 Flash low リリース: 2026-05-19
スコア	8.7	9.2
順位	#13	#5
信頼性	10.0	10.0
一貫性	9.6	10.0
正解テスト
試行ごとの合格率	82.5%	90.5%
不安定なテスト	1	0
総実行回数	63	63
結果あたりのコスト	3.991	1.834
合計コスト	$0.679	$0.349
入力価格	$5.000 / 1M	$1.500 / 1M
出力価格	$25.000 / 1M	$9.000 / 1M
合計入力トークン	65,406	36,938
出力トークン	11,858	2,033
推論トークン	2,198	30,519
応答時間（平均）	4.73s	3.27s
応答時間（最大）	23.18s	9.05s
応答時間（合計）	94.51s	68.65s

生成ショーケース

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#13 Claude Opus 4.7

medium

コスト: $0.059
時間: 26.8s
トークン: 2,475 tok

#5 Gemini 3.5 Flash

low

コスト: $0.068
時間: 39.1s
トークン: 7,588 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	894	348	0
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.52s	494	209	2,536

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.7	7.6	7.2	77.8%	1		12.96s	10,635	7,629	1,114
Gemini 3.5 Flash	7.8	10.0	66.7%	0		6.71s	8,118	458	13,420

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	24,501	2,369	1,084
Gemini 3.5 Flash	10.0	10.0	100.0%	0		6.44s	12,873	351	3,050

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	10,533	324	0
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.81s	7,548	279	1,164

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	630	51	0
Gemini 3.5 Flash	7.7	10.0	66.7%	0		3.39s	633	12	4,538

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	723	256	0
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.27s	486	119	916

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	939	114	0
Gemini 3.5 Flash	9.9	10.0	100.0%	0		1.86s	615	71	1,652

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.7	10.0	10.0	100.0%	0		2.43s	939	370	0
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.35s	558	288	2,150

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	15,339	373	0
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.27s	5,457	234	403

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.7	3.0	10.0	0.0%	0		2.25s	273	24	0
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.88s	156	12	690

クイック比較

比較ペアを切り替え

Claude Fable 5mediumvsGemini 3.5 Flashlow Gemini 3.5 FlashlowvsQwen3.7 Maxmedium Claude Opus 4.7mediumvsGPT-5.2 Chatnone Gemini 3.5 FlashlowvsGPT-5.5medium Gemini 3.5 FlashlowvsGPT-5.3-Codexmedium Gemini 3.5 FlashlowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGemini 3.5 Flashlow Claude Opus 4.7mediumvsDeepSeek V4 Flashhigh Gemini 3.5 FlashlowvsGLM 5.2medium Claude Opus 4.7mediumvsGPT-5.5low Gemini 3.5 FlashlowvsGLM 5medium Gemini 3.5 FlashlowvsGPT-5 Minimedium