导航
AI BENCHY
比较 图表
❤️ Made by XCS
Your ad here

AI BENCHY 对比

OpenAI: GPT-5 Mini vs Qwen: Qwen3 Coder Next

比较:

基准结果生成自 AI BENCHY 测试套件,时间:: 2026-03-05

指标 OpenAI: GPT-5 Mini medium 发布日期: 2025-08-07 Qwen: Qwen3 Coder Next none 发布日期: 2026-02-03
排名 #31 #49
平均分 6.1 3.6
测试正确
一致性 8.9 10.0
每个结果成本 1.401 0.226
总成本 $0.113 $0.007
尝试通过率 62.2% 20.0%
不稳定测试 2 0
common.totalAttempts 45 (15 x 3) 45 (15 x 3)
输出令牌 5,477 2,874
推理令牌 46,912 0
响应时间(平均) 25.92s 12.82s
响应时间(最大) 88.15s 45.14s
响应时间(总计) 388.79s 115.42s

按分数排名的模型

响应时间(平均)

分数 vs 总成本

平均分 vs 响应时间(平均)

类别细分

反AI技巧 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5 Mini 7.0 9.6 66.7% 0 16.45s 1,645 5,824
Qwen: Qwen3 Coder Next 2.3 10.0 0.0% 0 4.39s 1,315 0
综合 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5 Mini 10.0 10.0 100.0% 0 88.15s 754 11,520
Qwen: Qwen3 Coder Next 10.0 10.0 0.0% 0 45.14s 317 0
数据解析与提取 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5 Mini 9.9 10.0 100.0% 0 12.58s 453 3,200
Qwen: Qwen3 Coder Next 5.4 10.0 50.0% 0 1.32s 246 0
领域专项 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5 Mini 10.0 7.2 22.2% 1 44.63s 293 14,016
Qwen: Qwen3 Coder Next 4.0 10.0 33.3% 0 962ms 26 0
指令遵循 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5 Mini 7.5 6.6 83.3% 1 15.66s 318 4,992
Qwen: Qwen3 Coder Next 4.5 10.0 0.0% 0 7.71s 63 0
Puzzle Solving 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5 Mini 4.3 9.8 33.3% 0 14.09s 1,527 5,760
Qwen: Qwen3 Coder Next 1.3 10.0 0.0% 0 22.86s 652 0
工具调用 分数 一致性 尝试通过率 不稳定测试 测试正确 响应时间(平均) 输出令牌 推理令牌
OpenAI: GPT-5 Mini 10.0 10.0 100.0% 0 18.64s 487 1,600
Qwen: Qwen3 Coder Next 10.0 10.0 100.0% 0 2.47s 255 0

快速对比

切换对比组合