AI BENCHY Compare

Google: Gemini 2.5 Flash vs Inception: Mercury 2

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-03

指標	Gemini 2.5 Flash Gemini 2.5 Flash none リリース: 2025-06-17	Mercury 2 Mercury 2 medium リリース: 2026-02-24

指標	Gemini 2.5 Flash Gemini 2.5 Flash none リリース: 2025-06-17	Mercury 2 Mercury 2 medium リリース: 2026-02-24
スコア	6.4	6.5
順位	#94	#89
信頼性	10.0	10.0
一貫性	9.6	8.8
正解テスト
試行ごとの合格率	48.3%	51.7%
不安定なテスト	1	3
総実行回数	60	60
結果あたりのコスト	0.159	0.611
合計コスト	$0.015	$0.055
入力価格	$0.300 / 1M	$0.250 / 1M
出力価格	$2.500 / 1M	$0.750 / 1M
合計入力トークン	32,923	32,570
出力トークン	1,764	4,022
推論トークン	0	58,405
応答時間（平均）	889ms	2.27s
応答時間（最大）	4.39s	14.63s
応答時間（合計）	17.79s	43.20s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 2.5 Flash	3.0	10.0	0.0%	0		582ms	492	102	0
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 2.5 Flash	6.8	10.0	50.0%	0		810ms	5,119	477	0
Mercury 2	7.2	6.5	66.7%	1		2.29s	4,519	270	8,514

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 2.5 Flash	3.0	10.0	0.0%	0		4.39s	12,519	366	0
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 2.5 Flash	10.0	10.0	100.0%	0		652ms	7,257	279	0
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 2.5 Flash	5.9	7.2	55.6%	1		495ms	633	12	0
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 2.5 Flash	5.0	10.0	0.0%	0		615ms	486	78	0
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 2.5 Flash	10.0	10.0	100.0%	0		590ms	615	72	0
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 2.5 Flash	7.7	10.0	66.7%	0		604ms	558	132	0
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 2.5 Flash	10.0	10.0	100.0%	0		1.91s	5,088	234	0
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 2.5 Flash	3.0	10.0	0.0%	0		1.15s	156	12	0
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748

クイック比較

比較ペアを切り替え

Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium Mercury 2mediumvsQwen3.7 Plusnone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsRing-2.6-1Tnone Gemini 3.1 Flash LiteminimalvsMercury 2medium Mercury 2mediumvsGLM 5none Gemma 4 31Bnone無料で利用可能vsMercury 2medium Gemini 2.5 FlashnonevsQwen3.6 27Bmedium Gemini 2.5 FlashnonevsGPT-5 Nanomedium DeepSeek V4 ProhighvsGemini 2.5 Flashnone Gemini 2.5 FlashnonevsKimi K2.5medium