AI BENCHY 对比

Qwen: Qwen3 Coder Next vs Z.ai: GLM 5 Turbo

摘要

Qwen3 Coder Next vs GLM 5 Turbo benchmark 对比：GLM 5 Turbo 平均分领先，为 5.3 vs 4.7。 Qwen3 Coder Next benchmark 成本更低，为 $0.008 vs $0.047。 GLM 5 Turbo 更快，为 2.82s vs 8.58s，通过率为 28.6% vs 31.8%。

推荐模型: Qwen3 Coder Next - 它的得分接近这里的最高分（4.7 vs 5.3），同时成本比GLM 5 Turbo低约 5.9 倍。

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-06-12

指标	Qwen3 Coder Next Qwen3 Coder Next medium 发布日期: 2026-02-03	GLM 5 Turbo GLM 5 Turbo none 发布日期: 2026-03-15

指标	Qwen3 Coder Next Qwen3 Coder Next medium 发布日期: 2026-02-03	GLM 5 Turbo GLM 5 Turbo none 发布日期: 2026-03-15
分数	4.7	5.3
排名	#153	#128
可靠性	10.0	10.0
一致性	8.9	9.3
测试正确
尝试通过率	28.6%	31.8%
不稳定测试	3	2
总运行次数	63	63
每个结果成本	0.201	0.655
总成本	$0.008	$0.047
输入价格	$0.110 / 1M	$1.200 / 1M
输出价格	$0.800 / 1M	$4.000 / 1M
总输入令牌	47,250	32,525
输出令牌	3,319	1,815
推理令牌	0	0
响应时间（平均）	8.58s	2.82s
响应时间（最大）	81.80s	8.21s
响应时间（总计）	128.68s	59.29s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#153 Qwen3 Coder Next

medium

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

#128 GLM 5 Turbo

none

Cost: $0.047
Time: 129.2s
Tokens: 11,775 tok

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3 Coder Next	3.5	8.1	16.7%	1		8.64s	645	1,252	0
GLM 5 Turbo	3.0	10.0	0.0%	0		2.84s	555	382	0

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3 Coder Next	3.7	7.2	22.2%	1		924ms	7,185	336	0
GLM 5 Turbo	3.9	7.8	11.1%	1		2.41s	7,256	529	0

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3 Coder Next	3.0	10.0	0.0%	0		4.28s	20,469	317	0
GLM 5 Turbo	3.0	10.0	0.0%	0		4.89s	8,133	144	0

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3 Coder Next	6.5	10.0	50.0%	0		81.80s	7,758	246	0
GLM 5 Turbo	10.0	10.0	100.0%	0		2.47s	7,107	204	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3 Coder Next	5.3	10.0	33.3%	0		638ms	753	25	0
GLM 5 Turbo	5.3	10.0	33.3%	0		1.97s	687	25	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3 Coder Next	6.3	3.4	66.7%	1		1.39s	498	142	0
GLM 5 Turbo	4.2	9.9	0.0%	0		2.18s	477	48	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3 Coder Next	6.3	10.0	50.0%	0		7.49s	684	63	0
GLM 5 Turbo	6.5	10.0	50.0%	0		2.13s	636	65	0

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3 Coder Next	3.0	10.0	0.0%	0		1.25s	678	671	0
GLM 5 Turbo	5.5	7.4	44.4%	1		2.65s	609	180	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.64s	8,364	255	0
GLM 5 Turbo	10.0	10.0	100.0%	0		8.21s	6,879	222	0

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3 Coder Next	3.0	10.0	0.0%	0		399ms	216	12	0
GLM 5 Turbo	3.0	10.0	0.0%	0		2.37s	186	16	0

快速对比

切换对比组合