AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

#108

Step 3.5 Flash

Stepfun 发布日期: 2026-02-01 测试于: 2026-04-11 01:44 stepfun/step-3.5-flash::none
(medium) (none)

已归档模型:该模型将不再更新,也不会在新测试中继续测试。

分数

3.0

一致性

10.0

可靠性

不适用

总成本

$0.000

总输出令牌

0

????

$0.100 / 1M

????

$0.300 / 1M

测试正确

错误测试数: 1

尝试通过率: 0.0%

不稳定测试

0

不稳定测试在运行之间出现混合结果(至少一次通过且至少一次失败)。

响应时间(平均)

0ms

响应时间(最大): 0ms

响应时间(总计): 0ms

测试历史

测试于 分数 可靠性 测试正确 总成本 比较
2026-05-08 15:30 新增测试 7.8 10.0 $0.020 比较
2026-04-11 01:44 首次记录的运行 3.0 不适用 $0.000 当前轮次

轮次对比

测试轮次分数一致性可靠性测试正确不稳定测试总输出令牌总成本响应时间(平均)
2026-04-11 01:44 · 首次记录的运行3.010.0不适用0/100$0.0000ms
2026-05-08 15:30 · 新增测试7.810.010.06/9064,795$0.02039.03s
差值-4.80.0-90-64795-$0.020-39032ms

这两次运行使用了不同的基准测试集,因此差异同时反映模型变化和测试集变化。

图表

先选择第一个模型,再点击第二个模型打开并排页面。

总输出令牌

分数 vs 总输出令牌

快速对比

类别细分

类别 分数 一致性 测试正确
编程 3.0 10.0

已对比模型