AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs OpenAI: GPT-5.4 Mini

Last updated at: 2026-03-17

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17
Rank	#32	#34
Score	7.3	7.1
Consistency	9.6	7.2
Cost per result	2.512	3.610
Total Cost	$0.252	$0.289
Tests Correct
Attempt pass rate	62.8%	68.6%
Flaky tests	1	6
Total Runs	51	51
Output Tokens	6,910	1,708
Reasoning Tokens	0	58,019
Response Time (avg)	5.12s	15.66s
Response Time (max)	23.84s	102.91s
Response Time (total)	51.16s	266.14s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	1,214	0
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	9.5	10.0	100.0%	0		23.84s	3,766	0
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	252	0
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	413	0
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	192	0
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	90	0
GPT-5.4 Mini	7.4	6.5	66.7%	1		2.50s	129	1,337

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.92s	536	0
GPT-5.4 Mini	6.8	7.9	55.6%	1		4.33s	271	2,449

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	447	0
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594

Quick Compare

Switch Comparison Pair

Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium Claude Sonnet 4.6nonevsGPT-5.2medium Claude Sonnet 4.6nonevsKimi K2.5medium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium Claude Sonnet 4.6nonevsHunter Alphamedium Claude Sonnet 4.6nonevsGrok 4.1 Fastmedium GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6nonevsMiMo-V2-Flashmedium Claude Sonnet 4.6nonevsNemotron 3 Super 120b A12bmediumFree Available GPT-5.4 MinimediumvsGLM 5none Claude Sonnet 4.6nonevsGPT-5 Minimedium