AI BENCHY
Advertise here
#37

Qwen3.6 27B

Qwen 发布日期: 2026-04-20 测试于: 2026-04-27 21:31 qwen/qwen3.6-27b::medium
(medium) (none)

摘要

Qwen3.6 27B 在 AI BENCHY 上得分 7.9,排名 #37。它的可靠性为 10.0,通过率为 77.8%,总成本为 $0.043,平均响应时间为 25.56s

分数

7.9

一致性

8.5

可靠性

10.0

总输出令牌

21,553

总输入令牌

0

输入价格

$0.500 / 1M

输出价格

$2.000 / 1M

测试正确

错误测试数: 2

尝试通过率: 77.8%

不稳定测试

1

不稳定测试在运行之间出现混合结果(至少一次通过且至少一次失败)。

响应时间(平均)

25.56s

响应时间(最大): 47.48s

响应时间(总计): 153.33s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#37 Qwen3.6 27B

medium
Cost
$0.009
Time
39.6s
Tokens
3,090 tok

测试历史

测试于 分数 可靠性 测试正确 总成本 比较
2026-06-04 13:21 新增测试 6.8 10.0 $0.444 比较
2026-05-21 23:59 测试集已变更 6.6 9.9 $0.272 比较
2026-04-27 21:48 新增测试 7.0 10.0 $0.209 比较
2026-04-27 21:31 首次记录的运行 7.9 10.0 $0.043 当前轮次

轮次对比

测试轮次分数一致性可靠性测试正确不稳定测试总输出令牌总输入令牌总成本响应时间(平均)
2026-04-27 21:31 · 首次记录的运行7.98.510.04/6121,5530$0.04325.56s
2026-06-04 13:21 · 新增测试6.88.210.010/215138,71039,376$0.44459.71s
差值+1.1+0.30.0-6-4-117157-39376-$0.401-34159ms

这两次运行使用了不同的基准测试集,因此差异同时反映模型变化和测试集变化。

图表

先选择第一个模型,再点击第二个模型打开并排页面。

总输出令牌

分数 vs 总输出令牌

快速对比

类别细分

类别 分数 一致性 测试正确
反AI技巧 10.0 10.0
数据解析与提取 4.3 1.2
领域专项 3.0 10.0
指令遵循 10.0 10.0
工具调用 10.0 10.0

已对比模型