AI BENCHY Compare
OpenAI: GPT-5.3 Chat vs StepFun: Step 3.7 Flash
ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-04
| 指標 | GPT-5.3 Chat GPT-5.3 Chat none | Step 3.7 Flash Step 3.7 Flash high |
|---|---|---|
| スコア | 7.2 | 7.0 |
| 順位 | #63 | #71 |
| 信頼性 | 10.0 | 10.0 |
| 一貫性 | 8.1 | 8.2 |
| 正解テスト | ||
| 試行ごとの合格率 | 66.7% | 63.5% |
| 不安定なテスト | 5 | 4 |
| 総実行回数 | 63 | 63 |
| 結果あたりのコスト | 3.605 | 10.434 |
| 合計コスト | $0.433 | $1.148 |
| 入力価格 | $1.750 / 1M | $0.200 / 1M |
| 出力価格 | $14.000 / 1M | $1.150 / 1M |
| 合計入力トークン | 34,209 | 38,391 |
| 出力トークン | 26,617 | 991,355 |
| 推論トークン | 0 | 0 |
| 応答時間(平均) | 6.34s | 64.46s |
| 応答時間(最大) | 18.33s | 364.99s |
| 応答時間(合計) | 133.13s | 1353.57s |
スコア vs 総コスト
応答時間(平均)
スコア vs 応答時間(平均)
合計出力トークン
スコア vs 合計出力トークン
カテゴリ内訳
| 反AIトリック | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.3 Chat | 6.7 | 8.1 | 58.3% | 1 | 3.86s | 606 | 3,167 | 0 | |
| Step 3.7 Flash | 10.0 | 10.0 | 100.0% | 0 | 13.40s | 696 | 42,656 | 0 |
| コーディング | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.3 Chat | 5.6 | 4.7 | 55.6% | 2 | 10.52s | 7,302 | 6,632 | 0 | |
| Step 3.7 Flash | 4.0 | 6.0 | 22.2% | 1 | 206.21s | 6,057 | 327,340 | 0 |
| 複合 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.3 Chat | 10.0 | 10.0 | 100.0% | 0 | 11.96s | 11,019 | 2,614 | 0 | |
| Step 3.7 Flash | 10.0 | 10.0 | 100.0% | 0 | 13.01s | 13,638 | 8,802 | 0 |
| データ解析と抽出 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.3 Chat | 10.0 | 10.0 | 100.0% | 0 | 2.21s | 7,140 | 942 | 0 | |
| Step 3.7 Flash | 10.0 | 10.0 | 100.0% | 0 | 14.72s | 7,368 | 23,113 | 0 |
| ドメイン特化 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.3 Chat | 3.5 | 4.4 | 33.3% | 2 | 13.01s | 723 | 8,264 | 0 | |
| Step 3.7 Flash | 4.1 | 4.4 | 44.5% | 2 | 149.64s | 783 | 410,502 | 0 |
| 汎用知能 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.3 Chat | 4.6 | 10.0 | 0.0% | 0 | 1.99s | 477 | 319 | 0 | |
| Step 3.7 Flash | 5.5 | 10.0 | 0.0% | 0 | 4.17s | 510 | 2,862 | 0 |
| 指示追従 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.3 Chat | 9.8 | 10.0 | 100.0% | 0 | 3.51s | 660 | 1,491 | 0 | |
| Step 3.7 Flash | 9.8 | 10.0 | 100.0% | 0 | 1.52s | 705 | 2,010 | 0 |
| パズル解決 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.3 Chat | 10.0 | 10.0 | 100.0% | 0 | 2.99s | 642 | 1,758 | 0 | |
| Step 3.7 Flash | 5.3 | 7.2 | 44.4% | 1 | 10.22s | 711 | 25,422 | 0 |
| ツール呼び出し | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.3 Chat | 10.0 | 10.0 | 100.0% | 0 | 8.36s | 5,445 | 861 | 0 | |
| Step 3.7 Flash | 10.0 | 10.0 | 100.0% | 0 | 2.79s | 7,701 | 1,172 | 0 |
| 雑学 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 応答時間(平均) | 入力トークン | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|---|---|
| GPT-5.3 Chat | 3.0 | 10.0 | 0.0% | 0 | 4.38s | 195 | 569 | 0 | |
| Step 3.7 Flash | 3.0 | 10.0 | 0.0% | 0 | 149.34s | 222 | 147,476 | 0 |
クイック比較
比較ペアを切り替え
GPT-5.4 NanomediumvsStep 3.7 FlashhighClaude Opus 4.6mediumvsStep 3.7 FlashhighClaude Opus 4.8nonevsStep 3.7 FlashhighMiniMax M3mediumvsStep 3.7 FlashhighGPT-5.3 ChatnonevsMiMo-V2-FlashmediumGPT-5.3 ChatnonevsStep 3.5 FlashmediumGemini 3.1 Flash LitelowvsGPT-5.3 ChatnoneKimi K2.6medium無料で利用可能vsGPT-5.3 ChatnoneGPT-5.3 ChatnonevsGLM 5V TurbomediumGPT-5.3 ChatnonevsGrok 4.20mediumDeepSeek V3.2mediumvsStep 3.7 FlashhighGPT-5.3 ChatnonevsStep 3.7 Flashlow