AI BENCHY 对比

MoonshotAI: Kimi K2.6 vs StepFun: Step 3.7 Flash

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-06-04

指标	Kimi K2.6 Kimi K2.6 medium 发布日期: 2026-04-20 免费可用	Step 3.7 Flash Step 3.7 Flash high 发布日期: 2026-05-29

指标	Kimi K2.6 Kimi K2.6 medium 发布日期: 2026-04-20 免费可用	Step 3.7 Flash Step 3.7 Flash high 发布日期: 2026-05-29
分数	7.2	7.0
排名	#60	#71
可靠性	10.0	10.0
一致性	8.6	8.2
测试正确
尝试通过率	65.1%	63.5%
不稳定测试	3	4
总运行次数	63	63
每个结果成本	8.358	10.434
总成本	$0.891	$1.148
输入价格	$0.684 / 1M	$0.200 / 1M
输出价格	$3.420 / 1M	$1.150 / 1M
总输入令牌	29,450	38,391
输出令牌	102,923	991,355
推理令牌	254,094	0
响应时间（平均）	71.67s	64.46s
响应时间（最大）	406.78s	364.99s
响应时间（总计）	1433.36s	1353.57s

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	7.0	8.0	66.7%	1		11.59s	618	7,115	8,934
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	5.7	8.6	33.3%	0		214.42s	2,925	9,970	77,189
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	10.0	10.0	100.0%	0		40.96s	11,271	711	13,876
Step 3.7 Flash	10.0	10.0	100.0%	0		13.01s	13,638	8,802	0

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	10.0	10.0	100.0%	0		20.38s	7,014	316	11,305
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	5.3	7.2	44.4%	1		202.38s	326	47,035	98,262
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	10.0	10.0	100.0%	0		17.83s	477	3,981	4,472
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	10.0	10.0	100.0%	0		12.53s	669	3,977	5,269
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	6.0	7.4	55.6%	1		25.06s	651	13,860	17,599
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	10.0	10.0	100.0%	0		8.92s	5,286	248	1,011
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Kimi K2.6	3.0	10.0	0.0%	0		130.27s	213	15,710	16,177
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

快速对比

切换对比组合

GPT-5.4 NanomediumvsStep 3.7 Flashhigh Gemini 3.1 Flash LitelowvsKimi K2.6medium免费可用 Gemini 3.1 Flash Lite PreviewnonevsKimi K2.6medium免费可用 Claude Opus 4.6mediumvsStep 3.7 Flashhigh Claude Opus 4.8nonevsStep 3.7 Flashhigh MiniMax M3mediumvsStep 3.7 Flashhigh Kimi K2.6medium免费可用vsStep 3.7 Flashlow Kimi K2.6medium免费可用vsGPT-5.3 Chatnone DeepSeek V3.2mediumvsStep 3.7 Flashhigh Qwen3.5-35B-A3BmediumvsStep 3.7 Flashhigh Step 3.7 FlashhighvsGrok 4.20medium Seed-2.0-MinimediumvsStep 3.7 Flashhigh