AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs StepFun: Step 3.7 Flash

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-04

指標	GPT-5.3 Chat GPT-5.3 Chat none リリース: 2026-03-03	Step 3.7 Flash Step 3.7 Flash high リリース: 2026-05-29

指標	GPT-5.3 Chat GPT-5.3 Chat none リリース: 2026-03-03	Step 3.7 Flash Step 3.7 Flash high リリース: 2026-05-29
スコア	7.2	7.0
順位	#63	#71
信頼性	10.0	10.0
一貫性	8.1	8.2
正解テスト
試行ごとの合格率	66.7%	63.5%
不安定なテスト	5	4
総実行回数	63	63
結果あたりのコスト	3.605	10.434
合計コスト	$0.433	$1.148
入力価格	$1.750 / 1M	$0.200 / 1M
出力価格	$14.000 / 1M	$1.150 / 1M
合計入力トークン	34,209	38,391
出力トークン	26,617	991,355
推論トークン	0	0
応答時間（平均）	6.34s	64.46s
応答時間（最大）	18.33s	364.99s
応答時間（合計）	133.13s	1353.57s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	11,019	2,614	0
Step 3.7 Flash	10.0	10.0	100.0%	0		13.01s	13,638	8,802	0

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

クイック比較

比較ペアを切り替え

GPT-5.4 NanomediumvsStep 3.7 Flashhigh Claude Opus 4.6mediumvsStep 3.7 Flashhigh Claude Opus 4.8nonevsStep 3.7 Flashhigh MiniMax M3mediumvsStep 3.7 Flashhigh GPT-5.3 ChatnonevsMiMo-V2-Flashmedium GPT-5.3 ChatnonevsStep 3.5 Flashmedium Gemini 3.1 Flash LitelowvsGPT-5.3 Chatnone Kimi K2.6medium無料で利用可能vsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5V Turbomedium GPT-5.3 ChatnonevsGrok 4.20medium DeepSeek V3.2mediumvsStep 3.7 Flashhigh GPT-5.3 ChatnonevsStep 3.7 Flashlow