AI BENCHY Compare

Compared models

Summary

GPT-5.4 vs GPT-5.4 Mini vs GPT-5.4 Nano vs GPT-5 Mini benchmark comparisonGPT-5 Mini leads on Score with 8.5. GPT-5.4 leads on Reliability with 10.0. GPT-5.4 Nano has the lowest Total Cost at $0.107. GPT-5.4 Nano is fastest at 11.95s.

Recommended model: GPT-5.4 Nano - It offers the best overall trade-off: a competitive score (7.5), lower cost than the other models in this comparison, and balanced response time.

Last updated at: 2026-06-12

Metric	GPT-5.4 GPT-5.4 medium Release: 2026-03-05	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17	GPT-5.4 Nano GPT-5.4 Nano medium Release: 2026-03-17	GPT-5 Mini GPT-5 Mini medium Release: 2025-08-07

Metric	GPT-5.4 GPT-5.4 medium Release: 2026-03-05	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17	GPT-5.4 Nano GPT-5.4 Nano medium Release: 2026-03-17	GPT-5 Mini GPT-5 Mini medium Release: 2025-08-07
Score	8.5	8.0	7.5	8.5
Rank	#20	#31	#49	#19
Reliability	10.0	10.0	10.0	10.0
Consistency	8.6	8.0	8.4	9.1
Tests Correct
Attempt pass rate	76.2%	73.0%	63.5%	63.5%
Flaky tests	4	5	4	2
Total Runs	63	63	63	63
Cost per result	8.640	4.381	0.969	1.319
Total Cost	$1.210	$0.526	$0.107	$0.159
Input Price	$2.500 / 1M	$0.750 / 1M	$0.200 / 1M	$0.250 / 1M
Output Price	$15.000 / 1M	$4.500 / 1M	$1.250 / 1M	$2.000 / 1M
Total Input Tokens	34,108	34,116	35,434	37,100
Output Tokens	2,242	2,181	3,014	6,801
Reasoning Tokens	72,707	108,937	76,520	67,690
Response Time (avg)	22.35s	22.34s	11.95s	23.64s
Response Time (max)	100.41s	138.75s	94.06s	88.15s
Response Time (total)	469.29s	469.20s	250.98s	496.44s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#20 GPT-5.4

medium

Cost: $0.214
Time: 199.6s
Tokens: 14,349 tok

#31 GPT-5.4 Mini

medium

Cost: $0.056
Time: 95.5s
Tokens: 12,464 tok

#49 GPT-5.4 Nano

medium

Cost: $0.007
Time: 24.6s
Tokens: 4,943 tok

#19 GPT-5 Mini

medium

Cost: $0.007
Time: 42.9s
Tokens: 3,432 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	8.3	10.0	75.0%	0	4.11s	606	240	1,511
GPT-5.4 Mini	8.6	7.9	91.7%	1	4.05s	606	296	2,876
GPT-5.4 Nano	8.3	10.0	75.0%	0	4.52s	606	683	2,254
GPT-5 Mini	7.1	7.6	66.7%	1	13.86s	606	1,715	6,378

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	8.8	7.8	88.9%	1	44.36s	7,305	433	24,216
GPT-5.4 Mini	8.4	7.4	88.9%	1	57.87s	7,305	467	40,902
GPT-5.4 Nano	6.1	4.7	66.7%	2	19.12s	7,305	516	20,778
GPT-5 Mini	10.0	10.0	100.0%	0	27.63s	7,302	658	17,152

Combined	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	10.0	10.0	100.0%	20.57s	11,019	301	3,543
GPT-5.4 Mini	10.0	10.0	100.0%	17.81s	11,019	317	4,317
GPT-5.4 Nano	9.8	10.0	100.0%	24.13s	12,345	349	5,719
GPT-5 Mini	10.0	10.0	100.0%	88.15s	14,118	754	11,520

Data parsing and extraction	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	10.0	10.0	100.0%	5.32s	7,140	234	804
GPT-5.4 Mini	10.0	10.0	100.0%	2.43s	7,140	234	650
GPT-5.4 Nano	10.0	10.0	100.0%	2.54s	7,140	234	516
GPT-5 Mini	10.0	10.0	100.0%	12.58s	7,140	453	3,200

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	5.3	7.2	44.4%	1	74.27s	619	61	34,748
GPT-5.4 Mini	4.1	4.4	44.5%	2	65.31s	619	60	43,286
GPT-5.4 Nano	5.9	7.2	55.6%	1	38.18s	619	60	43,325
GPT-5 Mini	3.6	7.2	22.2%	1	44.63s	515	293	14,016

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	4.7	3.1	33.3%	1	4.92s	477	145	321
GPT-5.4 Mini	4.5	10.0	0.0%	0	3.72s	477	150	510
GPT-5.4 Nano	4.5	10.0	0.0%	0	4.15s	477	179	443
GPT-5 Mini	4.5	10.0	0.0%	0	13.50s	477	349	1,856

Instructions following	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	10.0	10.0	100.0%	3.11s	660	93	897
GPT-5.4 Mini	9.8	10.0	100.0%	2.13s	660	96	1,185
GPT-5.4 Nano	9.8	10.0	100.0%	1.88s	660	95	521
GPT-5 Mini	10.0	10.0	100.0%	11.59s	660	310	3,968

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	8.2	7.2	88.9%	1	9.14s	642	441	3,815
GPT-5.4 Mini	7.8	10.0	66.7%	0	4.37s	642	278	2,443
GPT-5.4 Nano	4.1	7.2	22.2%	1	3.79s	642	594	1,408
GPT-5 Mini	5.6	9.8	33.3%	0	15.20s	642	1,622	6,144

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	10.0	10.0	100.0%	0	13.28s	5,445	264	1,031
GPT-5.4 Mini	4.7	1.6	66.7%	1	9.62s	5,453	251	2,594
GPT-5.4 Nano	10.0	10.0	100.0%	0	7.71s	5,445	234	382
GPT-5 Mini	10.0	10.0	100.0%	0	18.64s	5,445	487	1,600

Trivia	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GPT-5.4	3.0	10.0	0.0%	13.95s	195	30	1,821
GPT-5.4 Mini	3.0	10.0	0.0%	30.10s	195	32	10,174
GPT-5.4 Nano	3.0	10.0	0.0%	4.81s	195	70	1,174
GPT-5 Mini	3.0	10.0	0.0%	9.99s	195	160	1,856

Quick Compare

Switch Comparison Pair

DeepSeek V4 ProhighvsGPT-5.4 Minimedium Gemini 3 Flash PreviewlowvsGPT-5.4 Nanomedium GPT-5.4 NanomediumvsStep 3.7 Flashlow Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium DeepSeek V4 FlashhighvsGPT-5.4medium DeepSeek V4 FlashhighvsGPT-5.4 Minimedium DeepSeek V4 FlashhighvsGPT-5 Minimedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium GPT-5.4 MinimediumvsStep 3.7 Flashlow DeepSeek V4 PrononevsGPT-5.4 Nanomedium GPT-5.4 NanomediumvsQwen3.7 Plusnone GPT-5.4 NanomediumvsStep 3.7 Flashhigh