#5
OpenAI · 发布日期: 2026-04-24 · 测试于: 2026-04-24 20:23 · openai/gpt-5.5::medium
分数
9.0…
一致性
9.2…
可靠性
不适用该模型是在引入可靠性分数遥测之前测试的。
总成本
$2.884…
总输出令牌
91,552…
????
$5.000 / 1M…
$30.000 / 1M…
测试正确
15/18 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 2 未遵循指令: 1 响应时间(平均)32.75s 响应时间(最大)332.10s 响应时间(总计)589.59s …
错误测试数: 3
尝试通过率: 87.0%
不稳定测试
2…
不稳定测试在运行之间出现混合结果(至少一次通过且至少一次失败)。
响应时间(平均)
32.75s…
响应时间(最大): 332.10s
响应时间(总计): 589.59s
测试历史
先选择第一个模型,再点击第二个模型打开并排页面。