已对比模型

排名: #78
总输出令牌: 391,540
响应时间（平均）: 109.98s
总成本: $0.831

排名: #87
总输出令牌: 227,367
响应时间（平均）: 99.00s
总成本: $0.600

排名: #50
总输出令牌: 124,566
响应时间（平均）: 33.54s
总成本: $0.307

排名: #20
总输出令牌: 29,990
响应时间（平均）: 7.61s
总成本: $1.477

推荐模型 Claude Opus 4.7 (medium)

它在这里得分最高（8.7），同时响应速度比本次比较中的其他模型快约 10.6 倍。

详细对比

指标	Kimi K2.6 Kimi K2.6 medium 发布日期: 2026-04-20	Kimi K2.5 Kimi K2.5 medium 发布日期: 2026-01-27	GLM 5 GLM 5 medium 发布日期: 2026-02-12	Claude Opus 4.7 Claude Opus 4.7 medium 发布日期: 2026-04-16

指标	Kimi K2.6 Kimi K2.6 medium 发布日期: 2026-04-20	Kimi K2.5 Kimi K2.5 medium 发布日期: 2026-01-27	GLM 5 GLM 5 medium 发布日期: 2026-02-12	Claude Opus 4.7 Claude Opus 4.7 medium 发布日期: 2026-04-16
分数	7.2	7.0	7.7	8.7
排名	#78	#87	#50	#20
可靠性	9.4	10.0	10.0	10.0
一致性	8.3	7.0	8.1	9.6
测试正确
尝试通过率	63.6%	65.2%	78.8%	83.3%
不稳定测试	4	8	4	1
总运行次数	66	66	63	66
每个结果成本	9.821	4.789	1.668	8.201
总成本	$0.831	$0.600	$0.307	$1.477
输入价格	$0.646 / 1M	$0.571 / 1M	$0.950 / 1M	$5.000 / 1M
输出价格	$2.720 / 1M	$2.850 / 1M	$2.551 / 1M	$25.000 / 1M
总输入令牌	68,902	118,448	35,224	145,252
输出令牌	111,680	62,124	21,570	24,948
推理令牌	279,860	165,243	102,996	5,042
响应时间（平均）	109.98s	99.00s	33.54s	7.61s
响应时间（最大）	876.20s	281.00s	99.85s	65.40s
响应时间（总计）	2309.56s	1485.04s	435.99s	159.91s

模型生成展示

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#78 MoonshotAI: Kimi K2.6

medium

成本: $0.013
时间: 103.4s
令牌: 3,620 tok

#87 MoonshotAI: Kimi K2.5

medium

成本: $0.030
时间: 58.6s
令牌: 8,683 tok

#50 GLM 5

medium

成本: $0.005
时间: 20.7s
令牌: 2,068 tok

#20 Claude Opus 4.7

medium

成本: $0.059
时间: 26.8s
令牌: 2,475 tok

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

类别:

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	7.0	8.0	66.7%	1		11.59s	618	7,115	8,934
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880
GLM 5	10.0	10.0	100.0%	0		23.66s	555	480	7,056
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	894	348	0

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	5.7	8.6	33.3%	0		214.42s	2,925	9,970	77,189
Kimi K2.5	6.1	4.6	66.7%	2		217.49s	6,935	5,705	74,693
GLM 5	10.0	10.0	100.0%	0		74.30s	7,254	2,997	52,930
Claude Opus 4.7	7.6	7.2	77.8%	1		12.96s	10,635	7,629	1,114

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	6.9	5.9	66.7%	1		458.58s	50,723	9,468	39,642
Kimi K2.5	6.7	9.1	50.0%	0		89.19s	95,416	14,448	11,209
GLM 5	5.0	5.0	50.0%	0		28.96s	12,804	662	3,242
Claude Opus 4.7	10.0	10.0	100.0%	0		43.42s	104,347	15,459	3,928

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	10.0	10.0	100.0%	0		20.38s	7,014	316	11,305
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940
GLM 5	7.1	5.6	83.3%	1		8.90s	5,508	567	3,734
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	10,533	324	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	5.3	7.2	44.4%	1		202.38s	326	47,035	98,262
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564
GLM 5	3.5	4.4	33.3%	2		0ms	260	13,176	14,137
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	630	51	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	10.0	10.0	100.0%	0		17.83s	477	3,981	4,472
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262
GLM 5	6.1	3.1	66.7%	1		14.69s	477	2,020	2,248
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	723	256	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	10.0	10.0	100.0%	0		12.53s	669	3,977	5,269
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547
GLM 5	10.0	10.0	100.0%	0		7.25s	636	1,001	2,129
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	939	114	0

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	6.0	7.4	55.6%	1		25.06s	651	13,860	17,599
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692
GLM 5	10.0	10.0	100.0%	0		11.33s	609	33	4,076
Claude Opus 4.7	10.0	10.0	100.0%	0		2.43s	939	370	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	10.0	10.0	100.0%	0		8.92s	5,286	248	1,011
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812
GLM 5	10.0	10.0	100.0%	0		15.93s	6,935	233	994
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	15,339	373	0

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	3.0	10.0	0.0%	0		130.27s	213	15,710	16,177
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644
GLM 5	3.0	10.0	0.0%	0		67.37s	186	401	12,450
Claude Opus 4.7	3.0	10.0	0.0%	0		2.25s	273	24	0

快速对比

切换对比组合

KAT-Coder-Pro V2.5highvsKimi K2.6medium Gemini 3.5 FlashnonevsKimi K2.5medium Kimi K2.6mediumvsStep 3.7 Flashlow GPT-5.6 LunahighvsGLM 5medium Claude Opus 4.8nonevsKimi K2.6medium Claude Opus 4.8lowvsGLM 5medium Kimi K2.6mediumvsQwen3.7 Flashlow DeepSeek V4 FlashhighvsGLM 5medium DeepSeek V4 ProhighvsGLM 5medium Qwen3.7 FlashhighvsGLM 5medium Kimi K2.6mediumvsQwen3.7 Plusnone DeepSeek V4 PrononevsKimi K2.5medium