AI BENCHY 对比

DeepSeek: DeepSeek V4 Flash vs OpenAI: GPT-5.4 Nano

摘要

DeepSeek V4 Flash vs GPT-5.4 Nano benchmark 对比：DeepSeek V4 Flash 平均分领先，为 5.5 vs 4.8。 DeepSeek V4 Flash benchmark 成本更低，为 $0.008 vs $0.011。 GPT-5.4 Nano 更快，为 1.48s vs 26.75s，通过率为 30.2% vs 30.2%。

推荐模型: GPT-5.4 Nano - 它的得分接近这里的最高分（4.8 vs 5.5），同时响应速度比DeepSeek V4 Flash快约 18.1 倍。

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-06-12

指标	DeepSeek V4 Flash DeepSeek V4 Flash none 发布日期: 2026-04-24	GPT-5.4 Nano GPT-5.4 Nano none 发布日期: 2026-03-17

指标	DeepSeek V4 Flash DeepSeek V4 Flash none 发布日期: 2026-04-24	GPT-5.4 Nano GPT-5.4 Nano none 发布日期: 2026-03-17
分数	5.5	4.8
排名	#120	#149
可靠性	10.0	10.0
一致性	8.9	8.2
测试正确
尝试通过率	30.2%	30.2%
不稳定测试	3	5
总运行次数	63	63
每个结果成本	0.203	0.259
总成本	$0.008	$0.011
输入价格	$0.098 / 1M	$0.200 / 1M
输出价格	$0.196 / 1M	$1.250 / 1M
总输入令牌	50,127	34,212
输出令牌	13,710	2,784
推理令牌	0	0
响应时间（平均）	26.75s	1.48s
响应时间（最大）	111.96s	4.47s
响应时间（总计）	561.82s	31.01s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#120 DeepSeek V4 Flash

none

Cost: $0.004
Time: 157.6s
Tokens: 11,297 tok

#149 GPT-5.4 Nano

none

Cost: $0.008
Time: 46.1s
Tokens: 5,735 tok

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	3.0	10.0	0.0%	0		20.18s	540	174	0
GPT-5.4 Nano	3.5	8.0	16.7%	1		1.18s	606	800	0

编程	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	4.2	7.4	11.1%	1		17.13s	7,279	9,717	0
GPT-5.4 Nano	4.6	7.9	22.2%	1		2.22s	7,305	613	0

综合	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	4.5	2.1	66.7%	1		111.96s	24,398	2,664	0
GPT-5.4 Nano	3.0	10.0	0.0%	0		3.84s	11,019	280	0

数据解析与提取	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	10.0	10.0	100.0%	0		23.79s	7,290	195	0
GPT-5.4 Nano	6.5	10.0	50.0%	0		1.11s	7,140	219	0

领域专项	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	5.3	10.0	33.3%	0		19.73s	666	18	0
GPT-5.4 Nano	2.9	4.4	22.2%	2		926ms	723	52	0

通用智能	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	4.2	9.9	0.0%	0		23.74s	471	67	0
GPT-5.4 Nano	3.8	2.5	33.3%	1		1.31s	477	180	0

指令遵循	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	6.5	10.0	50.0%	0		17.54s	627	321	0
GPT-5.4 Nano	6.3	10.0	50.0%	0		784ms	660	89	0

谜题求解	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	3.1	7.3	11.1%	1		23.72s	594	207	0
GPT-5.4 Nano	5.4	10.0	33.3%	0		1.25s	642	308	0

工具调用	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	10.0	10.0	100.0%	0		77.93s	8,079	327	0
GPT-5.4 Nano	10.0	10.0	100.0%	0		3.40s	5,445	222	0

常识问答	分数	一致性	尝试通过率	不稳定测试	测试正确	响应时间（平均）	输入令牌	输出令牌	推理令牌
DeepSeek V4 Flash	3.0	10.0	0.0%	0		3.07s	183	20	0
GPT-5.4 Nano	3.0	10.0	0.0%	0		773ms	195	21	0

快速对比

切换对比组合

MiniMax M2.5mediumvsGPT-5.4 Nanonone GPT-5.4 NanononevsQwen3 Coder Nextmedium CobuddymediumvsGPT-5.4 Nanonone Mistral Small 4mediumvsGPT-5.4 Nanonone DeepSeek V4 FlashnonevsMiniMax M2.7medium MiniMax M2.7mediumvsGPT-5.4 Nanonone DeepSeek V4 FlashnonevsMistral Small 4medium GPT-5.4 NanononevsGLM 4.7 Flashmedium DeepSeek V4 FlashnonevsGemini 3.1 Flash Liteminimal CobuddymediumvsDeepSeek V4 Flashnone DeepSeek V4 FlashnonevsQwen3.5-35B-A3Bmedium DeepSeek V4 FlashnonevsGemma 4 31Bmedium免费可用