AI BENCHY Compare

Google: Gemini 3 Flash Preview vs OpenAI: GPT-5.4

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-03

指標	Gemini 3 Flash Preview Gemini 3 Flash Preview none リリース: 2025-12-17	GPT-5.4 GPT-5.4 medium リリース: 2026-03-05

指標	Gemini 3 Flash Preview Gemini 3 Flash Preview none リリース: 2025-12-17	GPT-5.4 GPT-5.4 medium リリース: 2026-03-05
スコア	7.7	7.9
順位	#39	#27
信頼性	10.0	10.0
一貫性	9.2	8.5
正解テスト
試行ごとの合格率	70.0%	75.0%
不安定なテスト	2	4
総実行回数	60	60
結果あたりのコスト	0.175	8.765
合計コスト	$0.023	$1.140
入力価格	$0.500 / 1M	$2.500 / 1M
出力価格	$3.000 / 1M	$15.000 / 1M
合計入力トークン	34,008	31,489
出力トークン	1,879	2,221
推論トークン	0	68,486
応答時間（平均）	1.70s	22.31s
応答時間（最大）	3.56s	100.41s
応答時間（合計）	22.05s	446.17s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 3 Flash Preview	8.3	10.0	75.0%	0		1.25s	498	214	0
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 3 Flash Preview	6.8	10.0	50.0%	0		2.19s	5,119	447	0
GPT-5.4	8.2	6.7	83.3%	1		54.98s	4,686	412	19,995

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 3 Flash Preview	4.7	1.6	66.7%	1		3.56s	12,862	350	0
GPT-5.4	10.0	10.0	100.0%	0		20.57s	11,019	301	3,543

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		1.41s	7,263	279	0
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 3 Flash Preview	7.7	10.0	66.7%	0		963ms	643	18	0
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		1.13s	490	104	0
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 3 Flash Preview	6.4	5.8	66.7%	1		1.58s	619	74	0
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 3 Flash Preview	7.7	10.0	66.7%	0		1.05s	574	144	0
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 3 Flash Preview	10.0	10.0	100.0%	0		3.35s	5,784	234	0
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Gemini 3 Flash Preview	3.0	10.0	0.0%	0		1.07s	156	15	0
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821

クイック比較

比較ペアを切り替え

GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3 Flash PreviewnonevsGrok Build 0.1medium Gemini 3 Flash PreviewnonevsQwen3.6 Flashmedium DeepSeek V4 FlashhighvsGemini 3 Flash Previewnone Gemini 3 Flash PreviewnonevsMiMo-V2.5-Promedium Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Gemini 3 Flash PreviewnonevsQwen3.5-122B-A10Bmedium Gemini 3.5 FlashminimalvsGPT-5.4medium Gemini 3 Flash PreviewnonevsMimo V2 PROmedium Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Gemini 3 Flash PreviewnonevsQwen3.6 Plusmedium Gemini 3.5 FlashnonevsGPT-5.4medium