AI BENCHY
比較する
❤️ Made by XCS

モデル名

StepFun: Step 3.5 Flash

ベンチマークは Aibenchy テストスイートから次の日時に生成 : 2026/02/19

指標 StepFun: Step 3.5 Flash
順位#18
企業Stepfun
Score 4.92
一貫性 7.34
結果あたりのコスト 0.0000
合計コスト $0.00000
正解テスト 5/12
試行ごとの合格率 58.3%
不安定なテスト 4
出力トークン 46,871
推論トークン 95,440

カテゴリ内訳

カテゴリ 完全合格テスト Score 一貫性 試行ごとの合格率 不安定なテスト 推論スコア コスト
Anti-AI Tricks 1/2 5.50 5.81 83.3% 1 10.00 $0.00000
Data parsing and extraction 1/2 5.00 10.00 50.0% 0 9.75 $0.00000
Domain specific 1/3 4.00 7.21 44.4% 1 8.44 $0.00000
Instructions following 2/2 10.00 10.00 100.0% 0 9.67 $0.00000
Puzzle Solving 0/3 2.00 4.96 33.3% 2 9.22 $0.00000

比較対象モデル

StepFun: Step 3.5 Flash と比較...

#17 · MiniMax

MiniMax: MiniMax M2.5

推論(medium)

Score: 5.08

一貫性: 6.00

試行ごとの合格率: 61.1%

不安定なテスト: 6

結果あたりのコスト: 4.0276

正解テスト: 5/12

合計コスト: $0.20138

比較する

#19 · OpenAI

OpenAI: GPT-4o-mini

推論なし

Score: 4.00

一貫性: 9.98

試行ごとの合格率: 25.0%

不安定なテスト: 0

結果あたりのコスト: 0.0576

正解テスト: 3/12

合計コスト: $0.00173

比較する

#16 · Anthropic

Anthropic: Claude Opus 4.6

推論(medium)

Score: 5.42

一貫性: 8.60

試行ごとの合格率: 55.5%

不安定なテスト: 2

結果あたりのコスト: 12.8695

正解テスト: 6/12

合計コスト: $0.77217

比較する

クイック比較

StepFun: Step 3.5 Flash と比較...