Claude Sonnet 4.6 vs GPT-5.4 Mini (medium)

Recommended model Claude Sonnet 4.6

Its score stays close to the best score here (7.3 vs 7.5), while responding about 3.2x faster than GPT-5.4 Mini (medium).

Detailed comparison

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17
Score	7.3	7.5
Rank	#74	#67
Reliability	10.0	10.0
Consistency	9.7	7.7
Tests Correct
Attempt pass rate	57.6%	71.2%
Flaky tests	1	6
Total Runs	66	66
Cost per result	5.502	6.299
Total Cost	$0.661	$0.756
Input Price	$3.000 / 1M	$0.750 / 1M
Output Price	$15.000 / 1M	$4.500 / 1M
Total Input Tokens	123,264	97,155
Output Tokens	19,362	6,211
Reasoning Tokens	0	145,544
Response Time (avg)	8.12s	25.94s
Response Time (max)	51.18s	138.75s
Response Time (total)	121.78s	570.66s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

none

medium

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	636	1,214	0
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	606	296	2,876

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	5.5	10.0	33.3%	0		5.19s	8,522	2,127	0
GPT-5.4 Mini	8.4	7.4	88.9%	1		57.87s	7,305	467	40,902

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	9.8	10.0	100.0%	0		37.51s	91,402	13,663	0
GPT-5.4 Mini	6.9	5.9	66.7%	1		59.64s	74,058	4,347	40,924

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	8,574	252	0
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	7,140	234	650

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	759	413	0
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	619	60	43,286

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	513	192	0
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	477	150	510

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	690	90	0
GPT-5.4 Mini	9.8	10.0	100.0%	0		2.13s	660	96	1,185

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.53s	663	533	0
GPT-5.4 Mini	7.8	10.0	66.7%	0		4.37s	642	278	2,443

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	11,301	447	0
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	5,453	251	2,594

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	3.0	10.0	0.0%	0		4.67s	204	431	0
GPT-5.4 Mini	3.0	10.0	0.0%	0		30.10s	195	32	10,174

Switch Comparison Pair