AI BENCHY 对比

Qwen: Qwen3.6 27B vs StepFun: Step 3.7 Flash

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-06-04

指标	Qwen3.6 27B Qwen3.6 27B medium 发布日期: 2026-04-20	Step 3.7 Flash Step 3.7 Flash high 发布日期: 2026-05-29

指标	Qwen3.6 27B Qwen3.6 27B medium 发布日期: 2026-04-20	Step 3.7 Flash Step 3.7 Flash high 发布日期: 2026-05-29
分数	6.8	7.0
排名	#78	#71
可靠性	10.0	10.0
一致性	8.2	8.2
测试正确
尝试通过率	60.3%	63.5%
不稳定测试	5	4
总运行次数	63	63
每个结果成本	3.361	10.434
总成本	$0.444	$1.148
输入价格	$0.290 / 1M	$0.200 / 1M
输出价格	$3.200 / 1M	$1.150 / 1M
总输入令牌	39,376	38,391
输出令牌	16,189	991,355
推理令牌	122,521	0
响应时间（平均）	59.71s	64.46s
响应时间（最大）	168.22s	364.99s
响应时间（总计）	1254.01s	1353.57s

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	453	582	4,311
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	7.7	10.0	66.7%	0		142.99s	5,051	7,968	43,367
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	15,104	2,088	14,689
Step 3.7 Flash	10.0	10.0	100.0%	0		13.01s	13,638	8,802	0

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	7,778	568	9,404
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	662	3,510	20,352
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	516	81	3,045
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	699	346	6,548
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	7.7	10.0	66.7%	0		61.14s	696	255	12,044
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	8,213	390	2,954
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	204	401	5,807
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0

快速对比

切换对比组合

GPT-5.4 NanomediumvsStep 3.7 Flashhigh Claude Opus 4.6mediumvsStep 3.7 Flashhigh Claude Opus 4.8nonevsStep 3.7 Flashhigh MiniMax M3mediumvsStep 3.7 Flashhigh Claude Sonnet 4.6nonevsQwen3.6 27Bmedium DeepSeek V3.2mediumvsStep 3.7 Flashhigh Qwen3.5-35B-A3BmediumvsStep 3.7 Flashhigh Step 3.7 FlashhighvsGrok 4.20medium Seed-2.0-MinimediumvsStep 3.7 Flashhigh Step 3.7 FlashhighvsMiMo-V2-Flashmedium GPT-5.3 ChatnonevsStep 3.7 Flashhigh Qwen3.6 Max PreviewnonevsStep 3.7 Flashhigh