导航
AI BENCHY
比较 图表 方法论
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY 对比

OpenAI: GPT-5.4 vs Qwen: Qwen3.5 Plus 2026-02-15

比较:

基准结果生成自 AI BENCHY 测试套件,时间:: 2026-03-06

指标 OpenAI: GPT-5.4 medium 发布日期: 2026-03-05 Qwen: Qwen3.5 Plus 2026-02-15 none 发布日期: 2026-02-15
排名 #9 #29
平均分 8.0 6.2
一致性 8.5 9.6
每个结果成本 6.601 0.172
总成本 $0.793 $0.016
测试正确
尝试通过率 83.3% 58.3%
不稳定测试 3 1
总运行次数 48 (16 x 3) 48 (16 x 3)
输出令牌 1,756 2,015
推理令牌 46,642 0
响应时间(平均) 20.05s 2.65s
响应时间(最大) 100.41s 6.65s
响应时间(总计) 320.87s 26.52s

按分数排名的模型

分数 vs 总成本

响应时间(平均)

平均分 vs 响应时间(平均)

类别细分

反AI技巧 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 5.02s 216 1,466
Qwen: Qwen3.5 Plus 2026-02-15 4.0 10.0 33.3% 0 2.74s 514 0
综合 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Qwen: Qwen3.5 Plus 2026-02-15 10.0 10.0 0.0% 0 6.65s 314 0
数据解析与提取 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 9.9 10.0 100.0% 0 5.32s 234 804
Qwen: Qwen3.5 Plus 2026-02-15 9.9 10.0 100.0% 0 1.89s 243 0
领域专项 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 4.0 7.2 44.4% 1 74.27s 61 34,748
Qwen: Qwen3.5 Plus 2026-02-15 4.0 10.0 33.3% 0 1.17s 17 0
通用智能 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 5.0 3.1 33.3% 1 4.92s 145 321
Qwen: Qwen3.5 Plus 2026-02-15 4.0 3.0 33.3% 1 2.26s 117 0
指令遵循 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Qwen: Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 1.67s 72 0
Puzzle Solving 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 7.0 7.2 88.9% 1 9.13s 442 3,832
Qwen: Qwen3.5 Plus 2026-02-15 7.0 10.0 66.7% 0 2.82s 516 0
工具调用 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031
Qwen: Qwen3.5 Plus 2026-02-15 10.0 10.0 100.0% 0 3.33s 222 0

快速对比

切换对比组合