AI BENCHY Compare

比較対象モデル

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-05-01

指標	Claude Opus 4.6 Claude Opus 4.6 medium リリース: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium リリース: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium リリース: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium リリース: 2026-02-19

指標	Claude Opus 4.6 Claude Opus 4.6 medium リリース: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium リリース: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium リリース: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium リリース: 2026-02-19
スコア	7.6	8.0	8.6	9.6
順位	#50	#37	#13	#2
信頼性	該当なし	該当なし	該当なし	該当なし
一貫性	9.1	9.5	8.7	10.0
正解テスト
試行ごとの合格率	70.4%	74.1%	83.3%	94.4%
不安定なテスト	2	1	3	0
総実行回数	54	54	54	54
結果あたりのコスト	12.047	8.930	4.405	3.400
合計コスト	$1.446	$1.161	$0.573	$0.578
????	$5.000 / 1M	$3.000 / 1M	$1.750 / 1M	$2.000 / 1M
????	$25.000 / 1M	$15.000 / 1M	$14.000 / 1M	$12.000 / 1M
出力トークン	29,829	42,068	2,279	1,932
推論トークン	18,938	26,784	35,179	40,542
応答時間（平均）	21.08s	12.66s	15.38s	15.96s
応答時間（最大）	83.40s	46.35s	100.93s	40.61s
応答時間（合計）	231.84s	126.62s	276.91s	175.52s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	240	1,722
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
Claude Sonnet 4.6	10.0	10.0	100.0%	0		35.76s	6,894	2,097
GPT-5.3-Codex	10.0	10.0	100.0%	0		8.95s	491	1,530
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	234	728
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	64	25,308
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	187	331
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.12s	352	1,644
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982

クイック比較

比較ペアを切り替え

GPT-5.3-CodexmediumvsHY3 Previewhigh無料で利用可能 Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Claude Sonnet 4.6mediumvsHY3 Previewlow無料で利用可能 Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsDeepSeek V4 Flashhigh Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh Claude Opus 4.6mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium