#58
OpenAI · 发布日期: 2026-04-24 · 测试于: 2026-04-24 19:59 · openai/gpt-5.5::none
分数
6.8…
一致性
8.3…
可靠性
不适用该模型是在引入可靠性分数遥测之前测试的。
总成本
$0.195…
总输出令牌
1,910…
????
$5.000 / 1M…
$30.000 / 1M…
测试正确
9/18 只有当某个测试的所有运行都通过时,才计为完全通过。 答案错误: 8 未遵循指令: 1 响应时间(平均)1.83s 响应时间(最大)5.56s 响应时间(总计)32.86s …
错误测试数: 9
尝试通过率: 61.1%
不稳定测试
4…
不稳定测试在运行之间出现混合结果(至少一次通过且至少一次失败)。
响应时间(平均)
1.83s…
响应时间(最大): 5.56s
响应时间(总计): 32.86s
测试历史
先选择第一个模型,再点击第二个模型打开并排页面。