AI BENCHY
比較する チャート 方法論
❤️ Made by XCS
Your ad here

#13

Step 3.5 Flash

Stepfun · リリース: 2026-02-01 · stepfun/step-3.5-flash::medium

結果あたりのコスト

0.000

一貫性

9.1

正解テスト

誤答テスト数: 6

試行ごとの合格率: 68.8%

不安定なテスト

2

不安定なテストは、実行間で結果が混在しています(少なくとも1回合格かつ1回失敗)。

応答時間(平均)

29.10s

応答時間(最大): 170.45s

応答時間(合計): 290.96s

指示に従っていない: 3 不正解: 3

チャート

最初のモデルを選択し、次に2つ目のモデルをクリックして並列比較ページを開きます。

クイック比較

カテゴリ内訳

カテゴリ 平均スコア 一貫性 正解テスト
Anti-AI Tricks 10.0 10.0
Combined 10.0 10.0
Data parsing and extraction 10.0 10.0
Domain specific 4.0 7.2
General Intelligence 6.0 10.0
Instructions following 9.0 6.8
Puzzle Solving 4.0 10.0
Tool Calling 10.0 10.0