AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs OpenAI: GPT-5.5

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-05-08

指標	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium リリース: 2026-05-08	GPT-5.5 GPT-5.5 none リリース: 2026-04-24

指標	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium リリース: 2026-05-08	GPT-5.5 GPT-5.5 none リリース: 2026-04-24
スコア	7.9	6.7
順位	#27	#72
信頼性	10.0	10.0
一貫性	9.1	8.7
正解テスト
試行ごとの合格率	71.9%	59.7%
不安定なテスト	2	3
総実行回数	57	57
結果あたりのコスト	0.452	1.961
合計コスト	$0.059	$0.197
????	$0.250 / 1M	$5.000 / 1M
????	$1.500 / 1M	$30.000 / 1M
出力トークン	2,224	1,928
推論トークン	32,034	0
応答時間（平均）	3.14s	1.99s
応答時間（最大）	10.87s	5.56s
応答時間（合計）	59.62s	37.87s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite	9.1	10.0	75.0%	0		2.39s	604	4,201
GPT-5.5	6.9	7.9	66.7%	1		1.31s	213	0

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		3.26s	429	2,712
GPT-5.5	10.0	10.0	100.0%	0		2.05s	426	0

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		10.87s	327	7,401
GPT-5.5	3.0	10.0	0.0%	0		5.56s	300	0

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	279	2,845
GPT-5.5	10.0	10.0	100.0%	0		1.18s	222	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		3.16s	15	5,165
GPT-5.5	2.9	7.2	11.1%	1		1.31s	52	0

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	84	1,142
GPT-5.5	10.0	10.0	100.0%	0		3.41s	124	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite	9.9	10.0	100.0%	0		2.59s	75	3,320
GPT-5.5	6.2	5.8	66.7%	1		1.15s	81	0

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite	7.6	7.2	77.8%	1		1.95s	165	2,450
GPT-5.5	7.7	10.0	66.7%	0		1.36s	245	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		4.55s	234	921
GPT-5.5	10.0	10.0	100.0%	0		3.90s	247	0

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		3.08s	12	1,877
GPT-5.5	3.0	10.0	0.0%	0		5.01s	18	0

クイック比較

比較ペアを切り替え

GPT-5.5nonevsQwen3.6 27Bmedium Kimi K2.5mediumvsGPT-5.5none Gemini 3.1 Flash LiteminimalvsGPT-5.5none GPT-5.5nonevsGrok 4.20medium DeepSeek V4 ProhighvsGPT-5.5none GPT-5.5nonevsGrok 4.1 Fastmedium Gemini 3.1 Flash LitemediumvsGPT-5.2 Chatnone Gemini 3.1 Flash LitemediumvsGPT-5.3 Chatnone DeepSeek V4 FlashhighvsGemini 3.1 Flash Litemedium Mercury 2mediumvsGPT-5.5none GPT-5.5nonevsMiMo-V2-Omnimedium DeepSeek V3.2mediumvsGPT-5.5none