ナビゲーション
AI BENCHY
比較する チャート 方法論
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs StepFun: Step 3.5 Flash

比較する:

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-03-06

指標 Anthropic: Claude Sonnet 4.6 none リリース: 2026-02-17 StepFun: Step 3.5 Flash medium リリース: 2026-02-01 無料で利用可能
順位 #25 #13
平均スコア 6.8 7.4
一貫性 9.6 9.1
結果あたりのコスト 2.504 0.000
合計コスト $0.251 $0.000
正解テスト
試行ごとの合格率 66.7% 68.8%
不安定なテスト 1 2
総実行回数 48 (16 x 3) 48 (16 x 3)
出力トークン 6,895 71,452
推論トークン 0 155,147
応答時間(平均) 5.57s 29.10s
応答時間(最大) 23.84s 170.45s
応答時間(合計) 50.12s 290.96s

スコア上位モデル

スコア vs 総コスト

応答時間(平均)

平均スコア vs 応答時間(平均)

カテゴリ内訳

反AIトリック スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Anthropic: Claude Sonnet 4.6 4.0 10.0 33.3% 0 4.83s 1,199 0
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 18.54s 13,924 17,208
複合 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Anthropic: Claude Sonnet 4.6 9.0 10.0 100.0% 0 23.84s 3,766 0
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 29.57s 1,176 12,984
データ解析と抽出 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Anthropic: Claude Sonnet 4.6 9.9 10.0 100.0% 0 3.43s 252 0
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 15.01s 600 13,886
ドメイン特化 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Anthropic: Claude Sonnet 4.6 7.0 10.0 66.7% 0 3.54s 413 0
StepFun: Step 3.5 Flash 4.0 7.2 44.4% 1 170.45s 45,350 90,436
汎用知能 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Anthropic: Claude Sonnet 4.6 5.0 3.1 66.7% 1 2.56s 192 0
StepFun: Step 3.5 Flash 6.0 10.0 0.0% 0 6.54s 2,214 2,584
指示追従 スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Anthropic: Claude Sonnet 4.6 5.5 10.0 50.0% 0 1.96s 90 0
StepFun: Step 3.5 Flash 9.0 6.8 83.3% 1 4.98s 2,284 3,412
Puzzle Solving スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Anthropic: Claude Sonnet 4.6 7.0 10.0 66.7% 0 2.92s 536 0
StepFun: Step 3.5 Flash 4.0 10.0 33.3% 0 7.72s 5,629 10,835
ツール呼び出し スコア 一貫性 試行ごとの合格率 不安定なテスト 正解テスト 応答時間(平均) 出力トークン 推論トークン
Anthropic: Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.11s 447 0
StepFun: Step 3.5 Flash 10.0 10.0 100.0% 0 11.91s 275 3,802

クイック比較

比較ペアを切り替え