导航
AI BENCHY
Advertise here

AI BENCHY 对比

OpenAI: GPT-5.4 vs Z.ai: GLM 5V Turbo

基准结果生成自 AI BENCHY 测试套件,时间:: 2026-06-03

指标 GPT-5.4 GPT-5.4 none 发布日期: 2026-03-05 GLM 5V Turbo GLM 5V Turbo none 发布日期: 2026-04-01
分数 5.6 5.9
排名 #121 #105
可靠性 10.0 10.0
一致性 9.1 10.0
测试正确
尝试通过率 38.3% 40.0%
不稳定测试 2 0
总运行次数 60 60
每个结果成本 1.644 0.606
总成本 $0.116 $0.049
输入价格 $2.500 / 1M $1.200 / 1M
输出价格 $15.000 / 1M $4.000 / 1M
总输入令牌 31,593 34,502
输出令牌 2,402 1,760
推理令牌 0 0
响应时间(平均) 1.45s 3.04s
响应时间(最大) 2.95s 6.51s
响应时间(总计) 29.00s 60.88s

按分数排名的模型

分数 vs 总成本

响应时间(平均)

分数 vs 响应时间(平均)

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
GPT-5.4 3.2 8.0 8.3% 1 1.21s 606 406 0
GLM 5V Turbo 4.8 10.0 25.0% 0 3.13s 555 281 0
编程 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
GPT-5.4 6.8 10.0 50.0% 0 1.99s 4,686 501 0
GLM 5V Turbo 6.8 10.0 50.0% 0 3.77s 4,658 354 0
综合 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
GPT-5.4 3.0 10.0 0.0% 0 2.89s 11,019 291 0
GLM 5V Turbo 3.0 10.0 0.0% 0 6.51s 12,708 276 0
数据解析与提取 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
GPT-5.4 10.0 10.0 100.0% 0 1.04s 7,140 222 0
GLM 5V Turbo 10.0 10.0 100.0% 0 3.81s 7,107 204 0
领域专项 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
GPT-5.4 5.3 7.2 44.4% 1 1.07s 723 50 0
GLM 5V Turbo 5.3 10.0 33.3% 0 2.09s 687 24 0
通用智能 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
GPT-5.4 4.4 9.9 0.0% 0 1.78s 477 184 0
GLM 5V Turbo 4.6 10.0 0.0% 0 2.22s 477 114 0
指令遵循 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
GPT-5.4 6.5 10.0 50.0% 0 1.07s 660 81 0
GLM 5V Turbo 6.5 10.0 50.0% 0 1.97s 636 60 0
谜题求解 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
GPT-5.4 5.6 9.8 33.3% 0 1.44s 642 381 0
GLM 5V Turbo 5.3 10.0 33.3% 0 2.40s 609 210 0
工具调用 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
GPT-5.4 10.0 10.0 100.0% 0 2.75s 5,445 246 0
GLM 5V Turbo 10.0 10.0 100.0% 0 4.86s 6,879 222 0
常识问答 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输入令牌 输出令牌 推理令牌
GPT-5.4 3.0 10.0 0.0% 0 990ms 195 40 0
GLM 5V Turbo 3.0 10.0 0.0% 0 2.23s 186 15 0

快速对比

切换对比组合