AI BENCHY 对比

DeepSeek: DeepSeek V4 Flash vs Qwen: Qwen3.5-27B

摘要

DeepSeek V4 Flash vs Qwen3.5-27B benchmark 对比：Qwen3.5-27B 平均分领先，为 5.7 vs 5.0。 DeepSeek V4 Flash benchmark 成本更低，为 $0.008 vs $0.015。 Qwen3.5-27B 更快，为 1.68s vs 26.75s，通过率为 30.2% vs 38.1%。

推荐模型: Qwen3.5-27B - 它在这里得分最高（5.7），同时响应速度比DeepSeek V4 Flash快约 15.9 倍。

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-06-04

指标	DeepSeek V4 Flash DeepSeek V4 Flash none 发布日期: 2026-04-24	Qwen3.5-27B Qwen3.5-27B none 发布日期: 2026-02-24

指标	DeepSeek V4 Flash DeepSeek V4 Flash none 发布日期: 2026-04-24	Qwen3.5-27B Qwen3.5-27B none 发布日期: 2026-02-24
分数	5.0	5.7
排名	#139	#115
可靠性	10.0	10.0
一致性	8.9	9.3
测试正确
尝试通过率	30.2%	38.1%
不稳定测试	3	2
总运行次数	63	63
每个结果成本	0.203	0.249
总成本	$0.008	$0.015
输入价格	$0.099 / 1M	$0.195 / 1M
输出价格	$0.197 / 1M	$1.560 / 1M
总输入令牌	50,127	44,478
输出令牌	13,710	3,592
推理令牌	0	0
响应时间（平均）	26.75s	1.68s
响应时间（最大）	111.96s	9.39s
响应时间（总计）	561.82s	35.25s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#139 DeepSeek V4 Flash

none

Cost: $0.004
Time: 157.6s
Tokens: 11,297 tok

#115 Qwen3.5-27B

none

Cost: $0.007
Time: 42.9s
Tokens: 4,273 tok

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	3.0	10.0	0.0%	0		20.18s	540	174	0
Qwen3.5-27B	4.8	10.0	25.0%	0		788ms	696	267	0

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	4.2	7.4	11.1%	1		17.13s	7,279	9,717	0
Qwen3.5-27B	5.8	10.0	33.3%	0		1.80s	7,913	415	0

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	4.5	2.1	66.7%	1		111.96s	24,398	2,664	0
Qwen3.5-27B	2.8	1.6	33.3%	1		9.39s	16,918	1,461	0

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	10.0	10.0	100.0%	0		23.79s	7,290	195	0
Qwen3.5-27B	10.0	10.0	100.0%	0		1.43s	7,794	243	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	5.3	10.0	33.3%	0		19.73s	666	18	0
Qwen3.5-27B	3.0	10.0	0.0%	0		540ms	789	15	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	4.2	9.9	0.0%	0		23.74s	471	67	0
Qwen3.5-27B	5.0	10.0	0.0%	0		2.51s	522	126	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	6.5	10.0	50.0%	0		17.54s	627	321	0
Qwen3.5-27B	6.3	10.0	50.0%	0		1.03s	711	69	0

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	3.1	7.3	11.1%	1		23.72s	594	207	0
Qwen3.5-27B	6.7	7.9	55.6%	1		1.38s	714	683	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	10.0	10.0	100.0%	0		77.93s	8,079	327	0
Qwen3.5-27B	10.0	10.0	100.0%	0		3.54s	8,211	303	0

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	3.0	10.0	0.0%	0		3.07s	183	20	0
Qwen3.5-27B	3.0	10.0	0.0%	0		599ms	210	10	0

快速对比

切换对比组合

CobuddymediumvsQwen3.5-27Bnone Nemotron 3 Supermedium免费可用vsQwen3.5-27Bnone DeepSeek V4 FlashnonevsMistral Small 4medium DeepSeek V4 FlashnonevsMiniMax M2.7medium DeepSeek V4 ProhighvsQwen3.5-27Bnone DeepSeek V4 FlashnonevsQwen3 Coder Nextmedium DeepSeek V4 FlashnonevsMiniMax M2.5medium MiniMax M2.5mediumvsQwen3.5-27Bnone MiniMax M2.7mediumvsQwen3.5-27Bnone Mistral Small 4mediumvsQwen3.5-27Bnone gpt-oss-120bmedium免费可用vsQwen3.5-27Bnone DeepSeek V4 FlashnonevsGLM 4.7 Flashmedium