#66
Qwen · 发布日期: 2026-03-02 · qwen/qwen3.5-9b::medium
平均分
2.6…
每个结果成本
0.779…
一致性
7.4…
总成本
$0.024…
测试正确
3/16 只有当某个测试的所有运行都通过时,才计为完全通过。 超时: 10 额外格式: 1 未遵循指令: 1 答案错误: 1 响应时间(平均)71.44s 响应时间(最大)226.38s 响应时间(总计)928.77s …
错误测试数: 13
尝试通过率: 35.4%
不稳定测试
5…
不稳定测试在运行之间出现混合结果(至少一次通过且至少一次失败)。
响应时间(平均)
71.44s…
响应时间(最大): 226.38s
响应时间(总计): 928.77s
先选择第一个模型,再点击第二个模型打开并排页面。