AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

#37

Qwen3.6 27B

Qwen 发布日期: 2026-04-20 测试于: 2026-04-27 21:31 qwen/qwen3.6-27b::medium
(medium) (none)

分数

7.9

一致性

8.5

可靠性

10.0

总成本

$0.043

总输出令牌

21,553

????

$0.500 / 1M

????

$2.000 / 1M

测试正确

错误测试数: 2

尝试通过率: 77.8%

不稳定测试

1

不稳定测试在运行之间出现混合结果(至少一次通过且至少一次失败)。

响应时间(平均)

25.56s

响应时间(最大): 47.48s

响应时间(总计): 153.33s

测试历史

测试于 分数 可靠性 测试正确 总成本 比较
2026-04-27 21:48 新增测试 7.0 10.0 $0.209 比较
2026-04-27 21:31 首次记录的运行 7.9 10.0 $0.043 当前轮次

轮次对比

测试轮次分数一致性可靠性测试正确不稳定测试总输出令牌总成本响应时间(平均)
2026-04-27 21:31 · 首次记录的运行7.98.510.04/6121,553$0.04325.56s
2026-04-27 21:48 · 新增测试7.07.910.09/18599,362$0.20950.53s
差值+0.9+0.60.0-5-4-77809-$0.166-24972ms

这两次运行使用了不同的基准测试集,因此差异同时反映模型变化和测试集变化。

图表

先选择第一个模型,再点击第二个模型打开并排页面。

总输出令牌

分数 vs 总输出令牌

快速对比

类别细分

类别 分数 一致性 测试正确
反AI技巧 10.0 10.0
数据解析与提取 4.3 1.2
领域专项 3.0 10.0
指令遵循 10.0 10.0
工具调用 10.0 10.0

已对比模型