已对比模型

排名: #49
总输出令牌: 124,566
响应时间（平均）: 33.54s
总成本: $0.307

排名: #82
总输出令牌: 152,552
响应时间（平均）: 46.77s
总成本: $0.535

排名: #85
总输出令牌: 227,367
响应时间（平均）: 99.00s
总成本: $0.600

排名: #190
总输出令牌: 63,350
响应时间（平均）: 15.25s
总成本: $0.000

推荐模型 GLM 5 (medium)

它在这里得分最高（7.7），同时成本比本次比较中的其他模型低约 1.8 倍。

详细对比

指标	GLM 5 GLM 5 medium 发布日期: 2026-02-12	GLM 5.1 GLM 5.1 medium 发布日期: 2026-04-07	Kimi K2.5 Kimi K2.5 medium 发布日期: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium 发布日期: 2026-04-20 免费可用

指标	GLM 5 GLM 5 medium 发布日期: 2026-02-12	GLM 5.1 GLM 5.1 medium 发布日期: 2026-04-07	Kimi K2.5 Kimi K2.5 medium 发布日期: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium 发布日期: 2026-04-20 免费可用
分数	7.7	7.1	7.0	4.9
排名	#49	#82	#85	#190
可靠性	10.0	8.3	10.0	不适用
一致性	8.1	8.4	7.0	8.6
测试正确
尝试通过率	78.8%	69.7%	65.2%	40.9%
不稳定测试	4	4	8	0
总运行次数	63	66	66	57
每个结果成本	1.668	4.202	4.789	0.000
总成本	$0.307	$0.535	$0.600	$0.000
输入价格	$0.950 / 1M	$0.966 / 1M	$0.571 / 1M	$0.000 / 1M
输出价格	$2.551 / 1M	$3.036 / 1M	$2.850 / 1M	$0.000 / 1M
总输入令牌	35,224	82,623	118,448	32,639
输出令牌	21,570	16,089	62,124	1,153
推理令牌	102,996	136,463	165,243	62,197
响应时间（平均）	33.54s	46.77s	99.00s	15.25s
响应时间（最大）	99.85s	308.75s	281.00s	43.55s
响应时间（总计）	435.99s	982.16s	1485.04s	182.96s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#49 GLM 5

medium

成本: $0.005
时间: 20.7s
令牌: 2,068 tok

#82 GLM 5.1

medium

无效SVG

成本: $0.000
时间: 300.0s
令牌: 0 tok

#85 MoonshotAI: Kimi K2.5

medium

成本: $0.030
时间: 58.6s
令牌: 8,683 tok

#190 Qwen3.6 Plus Preview

medium

此模型尚未生成任何展示结果。

成本: $0.000
时间: -
令牌: 0 tok

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

类别:

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
GLM 5	10.0	10.0	100.0%	0		23.66s	555	480	7,056
GLM 5.1	10.0	10.0	100.0%	0		8.31s	555	401	5,122
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880
Qwen3.6 Plus Preview	8.3	10.0	75.0%	0		11.69s	501	61	5,812

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
GLM 5	10.0	10.0	100.0%	0		74.30s	7,254	2,997	52,930
GLM 5.1	4.6	3.7	44.5%	2		109.63s	5,702	4,871	37,826
Kimi K2.5	6.1	4.6	66.7%	2		217.49s	6,935	5,705	74,693
Qwen3.6 Plus Preview	9.8	3.3	0.0%	0		0ms	0	0	0

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
GLM 5	5.0	5.0	50.0%	0		28.96s	12,804	662	3,242
GLM 5.1	9.8	10.0	100.0%	0		175.93s	66,926	4,761	65,248
Kimi K2.5	6.7	9.1	50.0%	0		89.19s	95,416	14,448	11,209
Qwen3.6 Plus Preview	5.0	5.0	50.0%	0		34.95s	14,934	452	13,073

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
GLM 5	7.1	5.6	83.3%	1		8.90s	5,508	567	3,734
GLM 5.1	10.0	10.0	100.0%	0		9.33s	7,107	991	4,552
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		14.95s	7,782	270	10,706

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
GLM 5	3.5	4.4	33.3%	2		0ms	260	13,176	14,137
GLM 5.1	5.3	10.0	33.3%	0		29.77s	489	969	11,314
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0		22.08s	665	49	26,895

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
GLM 5	6.1	3.1	66.7%	1		14.69s	477	2,020	2,248
GLM 5.1	10.0	10.0	100.0%	0		20.95s	477	2,875	2,875
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0		0ms	0	0	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
GLM 5	10.0	10.0	100.0%	0		7.25s	636	1,001	2,129
GLM 5.1	6.4	5.8	66.7%	1		7.47s	634	204	1,617
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547
Qwen3.6 Plus Preview	6.5	10.0	50.0%	0		3.40s	381	27	1,383

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
GLM 5	10.0	10.0	100.0%	0		11.33s	609	33	4,076
GLM 5.1	8.2	7.2	88.9%	1		31.64s	609	935	5,730
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692
Qwen3.6 Plus Preview	5.3	10.0	33.3%	0		7.52s	183	27	2,998

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
GLM 5	10.0	10.0	100.0%	0		15.93s	6,935	233	994
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0	0
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		5.87s	8,193	267	1,330

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
GLM 5	3.0	10.0	0.0%	0		67.37s	186	401	12,450
GLM 5.1	3.0	10.0	0.0%	0		29.40s	124	82	2,179
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0		0ms	0	0	0

快速对比

切换对比组合

Gemini 3.5 FlashnonevsKimi K2.5medium GPT-5.6 LunahighvsGLM 5medium Claude Opus 4.8lowvsGLM 5medium Qwen3.7 PlusnonevsGLM 5.1medium DeepSeek V4 FlashhighvsGLM 5medium DeepSeek V4 ProhighvsGLM 5medium DeepSeek V4 PrononevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.6 Solnone KAT-Coder-Pro V2.5highvsGLM 5.1medium Step 3.7 FlashlowvsGLM 5.1medium Kimi K2.5mediumvsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsGLM 5.1medium