AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite Preview

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-05-28

指標	Claude Opus 4.8 Claude Opus 4.8 medium リリース: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low リリース: 2026-03-03

指標	Claude Opus 4.8 Claude Opus 4.8 medium リリース: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low リリース: 2026-03-03
スコア	8.7	7.6
順位	#12	#47
信頼性	10.0	10.0
一貫性	9.6	10.0
正解テスト
試行ごとの合格率	83.3%	65.0%
不安定なテスト	1	0
総実行回数	60	60
結果あたりのコスト	6.285	0.186
合計コスト	$1.006	$0.025
入力価格	$5.000 / 1M	$0.250 / 1M
出力価格	$25.000 / 1M	$1.500 / 1M
出力トークン	23,201	2,280
推論トークン	5,901	8,829
応答時間（平均）	9.34s	2.85s
応答時間（最大）	38.03s	11.91s
応答時間（合計）	186.84s	57.08s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	1,179	478
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0		2.12s	462	1,638

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		14.97s	6,651	1,381
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		1.56s	654	723

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.8	9.8	10.0	100.0%	0		38.03s	5,260	1,588
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		11.91s	225	762

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.8	7.1	5.6	83.3%	1		12.29s	481	312
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.00s	291	696

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.8	5.3	10.0	33.3%	0		14.15s	7,477	900
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		2.36s	18	1,212

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		2.46s	237	0
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		1.54s	69	384

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		3.32s	373	320
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	72	753

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	791	483
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.69s	243	1,248

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		8.96s	301	225
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	237	993

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.8	3.0	10.0	0.0%	0		6.14s	451	214
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		1.35s	9	420

クイック比較

比較ペアを切り替え

Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium DeepSeek V4 Flashhigh無料で利用可能vsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGrok Build 0.1medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Promedium Claude Opus 4.8mediumvsGemini 3 Flash Previewlow Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium