AI BENCHY Compare

比較対象モデル

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-04-24

指標	GPT-5.5 GPT-5.5 medium リリース: 2026-04-24	GPT-5.4 GPT-5.4 medium リリース: 2026-03-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium リリース: 2026-02-19	Claude Opus 4.7 Claude Opus 4.7 medium リリース: 2026-04-16

指標	GPT-5.5 GPT-5.5 medium リリース: 2026-04-24	GPT-5.4 GPT-5.4 medium リリース: 2026-03-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium リリース: 2026-02-19	Claude Opus 4.7 Claude Opus 4.7 medium リリース: 2026-04-16
スコア	9.0	8.2	9.6	9.2
順位	#5	#18	#2	#3
信頼性	該当なし	該当なし	該当なし	該当なし
一貫性	9.2	8.7	10.0	10.0
正解テスト
試行ごとの合格率	87.0%	79.6%	94.4%	88.9%
不安定なテスト	2	3	0	0
総実行回数	54	54	54	54
結果あたりのコスト	19.226	6.399	3.400	2.790
合計コスト	$2.884	$0.832	$0.578	$0.447
????	$5.000 / 1M	$2.500 / 1M	$2.000 / 1M	$5.000 / 1M
????	$30.000 / 1M	$15.000 / 1M	$12.000 / 1M	$25.000 / 1M
出力トークン	1,920	2,169	1,932	5,375
推論トークン	89,632	48,732	40,542	1,341
応答時間（平均）	32.75s	18.63s	15.96s	3.53s
応答時間（最大）	332.10s	100.41s	40.61s	21.45s
応答時間（合計）	589.59s	335.26s	175.52s	60.03s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
GPT-5.5	10.0	10.0	100.0%	0		4.66s	250	1,335
GPT-5.4	8.3	10.0	75.0%	0		4.11s	240	1,511
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	348	0

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
GPT-5.5	10.0	10.0	100.0%	0		9.09s	318	1,391
GPT-5.4	10.0	10.0	100.0%	0		13.03s	389	2,045
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201
Claude Opus 4.7	10.0	10.0	100.0%	0		6.41s	1,141	257

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
GPT-5.5	10.0	10.0	100.0%	0		19.29s	312	2,841
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	2,369	1,084

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
GPT-5.5	10.0	10.0	100.0%	0		4.18s	234	593
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	324	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
GPT-5.5	5.3	7.2	44.4%	1		164.14s	67	79,625
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	51	0

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
GPT-5.5	10.0	10.0	100.0%	0		4.16s	138	223
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	256	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
GPT-5.5	10.0	10.0	100.0%	0		3.36s	93	538
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	114	0

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
GPT-5.5	8.6	7.9	77.8%	1		6.78s	250	2,254
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
Claude Opus 4.7	10.0	10.0	100.0%	0		2.51s	399	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
GPT-5.5	10.0	10.0	100.0%	0		10.57s	258	832
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	373	0

クイック比較

比較ペアを切り替え

DeepSeek V4 ProhighvsGPT-5.4medium GPT-5.4mediumvsHY3 Previewlow無料で利用可能 Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewlowvsGPT-5.5medium Claude Opus 4.7nonevsGPT-5.5medium GPT-5.4mediumvsHY3 Previewhigh無料で利用可能 Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium DeepSeek V4 FlashhighvsGPT-5.4medium Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium Claude Opus 4.7mediumvsGemini 3 Flash Previewlow GPT-5.5mediumvsHY3 Previewhigh無料で利用可能