AI BENCHY 对比

Qwen: Qwen3.6 27B vs Z.ai: GLM 5

摘要

Qwen3.6 27B vs GLM 5 benchmark 对比：Qwen3.6 27B 平均分领先，为 6.6 vs 6.0。 GLM 5 benchmark 成本更低，为 $0.027 vs $0.430。 GLM 5 更快，为 4.03s vs 59.71s，通过率为 60.3% vs 44.4%。

推荐模型: GLM 5 - 它的得分接近这里的最高分（6.0 vs 6.6），同时成本比Qwen3.6 27B低约 16.5 倍。

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-06-12

指标	Qwen3.6 27B Qwen3.6 27B medium 发布日期: 2026-04-20	GLM 5 GLM 5 none 发布日期: 2026-02-12

指标	Qwen3.6 27B Qwen3.6 27B medium 发布日期: 2026-04-20	GLM 5 GLM 5 none 发布日期: 2026-02-12
分数	6.6	6.0
排名	#80	#106
可靠性	10.0	10.0
一致性	8.2	9.7
测试正确
尝试通过率	60.3%	44.4%
不稳定测试	5	1
总运行次数	63	63
每个结果成本	3.361	0.263
总成本	$0.430	$0.027
输入价格	$0.288 / 1M	$0.600 / 1M
输出价格	$3.100 / 1M	$1.920 / 1M
总输入令牌	39,376	37,135
输出令牌	16,189	1,989
推理令牌	122,521	0
响应时间（平均）	59.71s	4.03s
响应时间（最大）	168.22s	11.07s
响应时间（总计）	1254.01s	56.37s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#80 Qwen3.6 27B

medium

Cost: $0.009
Time: 39.6s
Tokens: 3,090 tok

#106 GLM 5

none

Cost: $0.007
Time: 32.1s
Tokens: 2,023 tok

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	453	582	4,311
GLM 5	4.8	10.0	25.0%	0		2.37s	510	275	0

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	7.7	10.0	66.7%	0		142.99s	5,051	7,968	43,367
GLM 5	4.0	7.8	11.1%	1		5.12s	7,256	428	0

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	15,104	2,088	14,689
GLM 5	3.0	10.0	0.0%	0		4.98s	12,812	406	0

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	7,778	568	9,404
GLM 5	10.0	10.0	100.0%	0		5.78s	7,107	203	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	662	3,510	20,352
GLM 5	3.0	10.0	0.0%	0		2.24s	643	19	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	516	81	3,045
GLM 5	10.0	10.0	100.0%	0		3.27s	477	103	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	699	346	6,548
GLM 5	10.0	10.0	100.0%	0		1.48s	636	61	0

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	7.7	10.0	66.7%	0		61.14s	696	255	12,044
GLM 5	7.7	10.0	66.7%	0		1.91s	609	261	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	8,213	390	2,954
GLM 5	10.0	10.0	100.0%	0		11.07s	6,899	220	0

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	204	401	5,807
GLM 5	3.0	10.0	0.0%	0		3.62s	186	13	0

快速对比

切换对比组合

Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 27Bmedium Gemini 3.1 Flash LitelowvsQwen3.6 27Bmedium Gemini 3.1 Flash LiteminimalvsGLM 5none Gemini 3.5 FlashminimalvsQwen3.6 27Bmedium DeepSeek V4 ProhighvsGLM 5none GPT-5.5nonevsQwen3.6 27Bmedium DeepSeek V4 ProhighvsQwen3.6 27Bmedium Gemini 3 Flash PreviewnonevsQwen3.6 27Bmedium Qwen3.5-35B-A3BmediumvsGLM 5none DeepSeek V4 PrononevsQwen3.6 27Bmedium Gemma 4 31Bmedium免费可用vsGLM 5none