AI BENCHY 对比

已对比模型

摘要

GPT-5.4 vs GPT-5.4 Mini vs GPT-5.4 Nano vs GPT-5 Mini 基准对比GPT-5 Mini 在分数上以 8.5 领先。 GPT-5.4 在可靠性上以 10.0 领先。 GPT-5.4 Nano 的总成本最低，为 $0.107。 GPT-5.4 Nano 最快，为 11.95s。

推荐模型: GPT-5.4 Nano - 它提供了最佳整体取舍：得分有竞争力（7.5），成本低于本次比较中的其他模型，响应时间也较均衡。

基准结果生成自 AI BENCHY 测试套件，时间：: 2026-06-12

指标	GPT-5.4 GPT-5.4 medium 发布日期: 2026-03-05	GPT-5.4 Mini GPT-5.4 Mini medium 发布日期: 2026-03-17	GPT-5.4 Nano GPT-5.4 Nano medium 发布日期: 2026-03-17	GPT-5 Mini GPT-5 Mini medium 发布日期: 2025-08-07

指标	GPT-5.4 GPT-5.4 medium 发布日期: 2026-03-05	GPT-5.4 Mini GPT-5.4 Mini medium 发布日期: 2026-03-17	GPT-5.4 Nano GPT-5.4 Nano medium 发布日期: 2026-03-17	GPT-5 Mini GPT-5 Mini medium 发布日期: 2025-08-07
分数	8.5	8.0	7.5	8.5
排名	#20	#31	#49	#19
可靠性	10.0	10.0	10.0	10.0
一致性	8.6	8.0	8.4	9.1
测试正确
尝试通过率	76.2%	73.0%	63.5%	63.5%
不稳定测试	4	5	4	2
总运行次数	63	63	63	63
每个结果成本	8.640	4.381	0.969	1.319
总成本	$1.210	$0.526	$0.107	$0.159
输入价格	$2.500 / 1M	$0.750 / 1M	$0.200 / 1M	$0.250 / 1M
输出价格	$15.000 / 1M	$4.500 / 1M	$1.250 / 1M	$2.000 / 1M
总输入令牌	34,108	34,116	35,434	37,100
输出令牌	2,242	2,181	3,014	6,801
推理令牌	72,707	108,937	76,520	67,690
响应时间（平均）	22.35s	22.34s	11.95s	23.64s
响应时间（最大）	100.41s	138.75s	94.06s	88.15s
响应时间（总计）	469.29s	469.20s	250.98s	496.44s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#20 GPT-5.4

medium

Cost: $0.214
Time: 199.6s
Tokens: 14,349 tok

#31 GPT-5.4 Mini

medium

Cost: $0.056
Time: 95.5s
Tokens: 12,464 tok

#49 GPT-5.4 Nano

medium

Cost: $0.007
Time: 24.6s
Tokens: 4,943 tok

#19 GPT-5 Mini

medium

Cost: $0.007
Time: 42.9s
Tokens: 3,432 tok

按分数排名的模型

分数 vs 总成本

响应时间（平均）

分数 vs 响应时间（平均）

总输出令牌

分数 vs 总输出令牌

类别细分

反AI技巧	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
GPT-5.4	8.3	10.0	75.0%	0	4.11s	606	240	1,511
GPT-5.4 Mini	8.6	7.9	91.7%	1	4.05s	606	296	2,876
GPT-5.4 Nano	8.3	10.0	75.0%	0	4.52s	606	683	2,254
GPT-5 Mini	7.1	7.6	66.7%	1	13.86s	606	1,715	6,378

编程	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
GPT-5.4	8.8	7.8	88.9%	1	44.36s	7,305	433	24,216
GPT-5.4 Mini	8.4	7.4	88.9%	1	57.87s	7,305	467	40,902
GPT-5.4 Nano	6.1	4.7	66.7%	2	19.12s	7,305	516	20,778
GPT-5 Mini	10.0	10.0	100.0%	0	27.63s	7,302	658	17,152

综合	分数	一致性	尝试通过率	响应时间（平均）	输入令牌	输出令牌	推理令牌
GPT-5.4	10.0	10.0	100.0%	20.57s	11,019	301	3,543
GPT-5.4 Mini	10.0	10.0	100.0%	17.81s	11,019	317	4,317
GPT-5.4 Nano	9.8	10.0	100.0%	24.13s	12,345	349	5,719
GPT-5 Mini	10.0	10.0	100.0%	88.15s	14,118	754	11,520

数据解析与提取	分数	一致性	尝试通过率	响应时间（平均）	输入令牌	输出令牌	推理令牌
GPT-5.4	10.0	10.0	100.0%	5.32s	7,140	234	804
GPT-5.4 Mini	10.0	10.0	100.0%	2.43s	7,140	234	650
GPT-5.4 Nano	10.0	10.0	100.0%	2.54s	7,140	234	516
GPT-5 Mini	10.0	10.0	100.0%	12.58s	7,140	453	3,200

领域专项	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
GPT-5.4	5.3	7.2	44.4%	1	74.27s	619	61	34,748
GPT-5.4 Mini	4.1	4.4	44.5%	2	65.31s	619	60	43,286
GPT-5.4 Nano	5.9	7.2	55.6%	1	38.18s	619	60	43,325
GPT-5 Mini	3.6	7.2	22.2%	1	44.63s	515	293	14,016

通用智能	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
GPT-5.4	4.7	3.1	33.3%	1	4.92s	477	145	321
GPT-5.4 Mini	4.5	10.0	0.0%	0	3.72s	477	150	510
GPT-5.4 Nano	4.5	10.0	0.0%	0	4.15s	477	179	443
GPT-5 Mini	4.5	10.0	0.0%	0	13.50s	477	349	1,856

指令遵循	分数	一致性	尝试通过率	响应时间（平均）	输入令牌	输出令牌	推理令牌
GPT-5.4	10.0	10.0	100.0%	3.11s	660	93	897
GPT-5.4 Mini	9.8	10.0	100.0%	2.13s	660	96	1,185
GPT-5.4 Nano	9.8	10.0	100.0%	1.88s	660	95	521
GPT-5 Mini	10.0	10.0	100.0%	11.59s	660	310	3,968

谜题求解	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
GPT-5.4	8.2	7.2	88.9%	1	9.14s	642	441	3,815
GPT-5.4 Mini	7.8	10.0	66.7%	0	4.37s	642	278	2,443
GPT-5.4 Nano	4.1	7.2	22.2%	1	3.79s	642	594	1,408
GPT-5 Mini	5.6	9.8	33.3%	0	15.20s	642	1,622	6,144

工具调用	分数	一致性	尝试通过率	不稳定测试	响应时间（平均）	输入令牌	输出令牌	推理令牌
GPT-5.4	10.0	10.0	100.0%	0	13.28s	5,445	264	1,031
GPT-5.4 Mini	4.7	1.6	66.7%	1	9.62s	5,453	251	2,594
GPT-5.4 Nano	10.0	10.0	100.0%	0	7.71s	5,445	234	382
GPT-5 Mini	10.0	10.0	100.0%	0	18.64s	5,445	487	1,600

常识问答	分数	一致性	尝试通过率	响应时间（平均）	输入令牌	输出令牌	推理令牌
GPT-5.4	3.0	10.0	0.0%	13.95s	195	30	1,821
GPT-5.4 Mini	3.0	10.0	0.0%	30.10s	195	32	10,174
GPT-5.4 Nano	3.0	10.0	0.0%	4.81s	195	70	1,174
GPT-5 Mini	3.0	10.0	0.0%	9.99s	195	160	1,856

快速对比

切换对比组合

DeepSeek V4 ProhighvsGPT-5.4 Minimedium Gemini 3 Flash PreviewlowvsGPT-5.4 Nanomedium GPT-5.4 NanomediumvsStep 3.7 Flashlow Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium DeepSeek V4 FlashhighvsGPT-5.4medium DeepSeek V4 FlashhighvsGPT-5.4 Minimedium DeepSeek V4 FlashhighvsGPT-5 Minimedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium GPT-5.4 MinimediumvsStep 3.7 Flashlow DeepSeek V4 PrononevsGPT-5.4 Nanomedium GPT-5.4 NanomediumvsQwen3.7 Plusnone GPT-5.4 NanomediumvsStep 3.7 Flashhigh