AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.3 Chat

概要

Claude Opus 4.8 vs GPT-5.3 Chat の benchmark 比較: Claude Opus 4.8 が平均スコアでリードし、8.8 vs 7.5 です。 GPT-5.3 Chat の benchmark コストが低く、$0.433 vs $1.107 です。 GPT-5.3 Chat の方が高速で、6.34s vs 9.66s です、成功率は 84.1% vs 66.7% です。

おすすめモデル: GPT-5.3 Chat - 総合的に最も良い選択です。競争力のあるスコア（7.5）、Claude Opus 4.8 より低いコスト、バランスの取れた応答時間があります。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-18

指標	Claude Opus 4.8 Claude Opus 4.8 medium リリース: 2026-05-28	GPT-5.3 Chat GPT-5.3 Chat none リリース: 2026-03-03

指標	Claude Opus 4.8 Claude Opus 4.8 medium リリース: 2026-05-28	GPT-5.3 Chat GPT-5.3 Chat none リリース: 2026-03-03
スコア	8.8	7.5
順位	#12	#45
信頼性	10.0	10.0
一貫性	9.6	8.1
正解テスト
試行ごとの合格率	84.1%	66.7%
不安定なテスト	1	5
総実行回数	63	63
結果あたりのコスト	6.512	3.605
合計コスト	$1.107	$0.433
入力価格	$5.000 / 1M	$1.750 / 1M
出力価格	$25.000 / 1M	$14.000 / 1M
合計入力トークン	61,007	34,209
出力トークン	26,495	26,617
推論トークン	5,901	0
応答時間（平均）	9.66s	6.34s
応答時間（最大）	38.03s	18.33s
応答時間（合計）	202.89s	133.13s

生成ショーケース

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#12 Claude Opus 4.8

medium

コスト: $0.057
時間: 23.1s
トークン: 2,412 tok

#45 GPT-5.3 Chat

none

コスト: $0.008
時間: 8.1s
トークン: 634 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	834	1,179	478
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		15.33s	10,590	9,945	1,381
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	9.8	10.0	100.0%	0		38.03s	23,561	5,260	1,588
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	11,019	2,614	0

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	7.1	5.6	83.3%	1		12.29s	10,503	481	312
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	5.3	10.0	33.3%	0		14.15s	975	7,477	900
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		2.46s	708	237	0
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		3.32s	909	373	320
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	894	791	483
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	10.0	10.0	100.0%	0		8.96s	11,775	301	225
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Claude Opus 4.8	3.0	10.0	0.0%	0		6.14s	258	451	214
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0

クイック比較

比較ペアを切り替え

Mercury 2mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.6 Flashmedium DeepSeek V3.2mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok Build 0.1medium DeepSeek V4 ProhighvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2.5-Promedium MiniMax M3mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok 4.20medium GPT-5.3 ChatnonevsStep 3.7 Flashlow