AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs OpenAI: GPT-5.4 Mini

Last updated at: 2026-03-21

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17
Score	7.9	7.1
Rank	#21	#36
Consistency	9.5	7.2
Tests Correct
Attempt pass rate	72.6%	68.6%
Flaky tests	1	6
Total Runs	51	51
Cost per result	8.531	3.610
Total Cost	$1.024	$0.289
Input Price	$3.000 / 1M	$0.750 / 1M
Output Price	$15.000 / 1M	$4.500 / 1M
Output Tokens	35,174	1,708
Reasoning Tokens	24,687	58,019
Response Time (avg)	10.09s	15.66s
Response Time (max)	46.35s	102.91s
Response Time (total)	90.85s	266.14s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GPT-5.4 Mini	7.4	6.5	66.7%	1		2.50s	129	1,337

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
GPT-5.4 Mini	6.8	7.9	55.6%	1		4.33s	271	2,449

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594

Quick Compare

Switch Comparison Pair

Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6nonevsGPT-5.4 Minimedium GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone GPT-5.4 MinimediumvsGLM 5none GPT-5.4 MinimediumvsMiMo-V2-Omninone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4 Minimedium DeepSeek V3.2nonevsGPT-5.4 Minimedium Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow