导航
AI BENCHY
比较 图表
❤️ Made by XCS
Your ad here

AI BENCHY 对比

OpenAI: GPT-5.4 vs Qwen: Qwen3 Coder Next

比较:

基准结果生成自 AI BENCHY 测试套件,时间:: 2026-03-05

指标 OpenAI: GPT-5.4 none 发布日期: 2026-03-05 Qwen: Qwen3 Coder Next medium 发布日期: 2026-02-03
排名 #44 #51
平均分 46 33
一致性 89 95
每个结果成本 1.496 0.224
总成本 $0.090 $0.007
响应时间(平均) 1.46s 13.77s
响应时间(最大) 2.89s 81.80s
响应时间(总计) 21.86s 123.93s
测试正确
尝试通过率 44.4% 24.4%
不稳定测试 2 1
输出令牌 1,635 2,793
推理令牌 0 0

按分数排名的模型

响应时间(平均)

分数 vs 总成本

平均分 vs 响应时间(平均)

类别细分

反AI技巧 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 100 73 11.1% 1 1.41s 388 0
Qwen: Qwen3 Coder Next 13 75 22.2% 1 15.28s 1,246 0
综合 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 100 100 0.0% 0 2.89s 291 0
Qwen: Qwen3 Coder Next 100 100 0.0% 0 4.28s 317 0
数据解析与提取 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 99 100 100.0% 0 1.04s 222 0
Qwen: Qwen3 Coder Next 54 100 50.0% 0 81.80s 246 0
领域专项 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 40 72 44.4% 1 1.07s 50 0
Qwen: Qwen3 Coder Next 40 100 33.3% 0 638ms 25 0
指令遵循 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 55 100 50.0% 0 1.07s 81 0
Qwen: Qwen3 Coder Next 45 100 0.0% 0 7.34s 63 0
Puzzle Solving 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 40 98 33.3% 0 1.52s 357 0
Qwen: Qwen3 Coder Next 100 100 0.0% 0 2.30s 641 0
工具调用 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 100 100 100.0% 0 2.75s 246 0
Qwen: Qwen3 Coder Next 100 100 100.0% 0 2.64s 255 0

快速对比

切换对比组合