AI BENCHY Compare

比較対象モデル

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-03-12

指標	Claude Opus 4.6 Claude Opus 4.6 medium リリース: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium リリース: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium リリース: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium リリース: 2026-02-19

指標	Claude Opus 4.6 Claude Opus 4.6 medium リリース: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium リリース: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium リリース: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium リリース: 2026-02-19
順位	#28	#12	#4	#2
平均スコア	6.6	7.7	8.4	9.4
一貫性	9.0	9.5	9.1	10.0
結果あたりのコスト	13.118	8.525	4.485	3.417
合計コスト	$1.312	$1.023	$0.539	$0.513
正解テスト
試行ごとの合格率	66.7%	77.1%	83.3%	93.8%
不安定なテスト	2	1	2	0
総実行回数	48	48	48	48
出力トークン	26,254	35,159	1,764	1,521
推論トークン	17,363	24,687	33,348	35,656
応答時間（平均）	22.86s	11.23s	16.59s	16.60s
応答時間（最大）	83.40s	46.35s	100.93s	40.61s
応答時間（合計）	205.71s	89.84s	265.39s	149.36s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

平均スコア vs 応答時間（平均）

合計出力トークン

平均スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
Claude Sonnet 4.6	7.0	10.0	66.7%	0		4.95s	1,031	1,093
GPT-5.3-Codex	10.0	10.0	100.0%	0		4.69s	216	1,421
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.52s	106	2,533

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731
Gemini 3.1 Pro Preview	9.0	10.0	100.0%	0		40.61s	432	9,281

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
Claude Sonnet 4.6	9.9	10.0	100.0%	0		13.90s	649	742
GPT-5.3-Codex	9.9	10.0	100.0%	0		3.07s	234	728
Gemini 3.1 Pro Preview	9.9	10.0	100.0%	0		7.72s	279	3,904

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
Claude Sonnet 4.6	10.0	7.2	11.1%	1		0ms	25,790	16,919
GPT-5.3-Codex	4.0	7.2	55.6%	1		64.31s	64	25,308
Gemini 3.1 Pro Preview	7.0	10.0	66.7%	0		32.73s	18	12,424

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GPT-5.3-Codex	4.0	10.0	0.0%	0		4.87s	187	331
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236

Puzzle Solving	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
GPT-5.3-Codex	9.3	7.9	88.9%	1		5.12s	352	1,644
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982

クイック比較

比較ペアを切り替え

Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone