#60
Qwen · 发布日期: 2026-03-02 · qwen/qwen3.5-9b::none
平均分
3.4…
每个结果成本
0.111…
一致性
10.0…
总成本
$0.005…
测试正确
4/16 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 未遵循指令: 3 无效工具调用: 1 响应时间(平均)1.06s 响应时间(最大)5.91s 响应时间(总计)16.95s …
错误测试数: 12
尝试通过率: 25.0%
不稳定测试
0…
不稳定测试在运行之间出现混合结果(至少一次通过且至少一次失败)。
响应时间(平均)
1.06s…
响应时间(最大): 5.91s
响应时间(总计): 16.95s
先选择第一个模型,再点击第二个模型打开并排页面。