AI BENCHY Compare

OpenAI: GPT-5.2 vs OpenAI: GPT-5.4 Mini

Last updated at: 2026-03-17

Metric	GPT-5.2 GPT-5.2 medium Release: 2025-12-11	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17

Metric	GPT-5.2 GPT-5.2 medium Release: 2025-12-11	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17
Rank	#30	#34
Score	7.3	7.1
Consistency	8.0	7.2
Cost per result	3.131	3.610
Total Cost	$0.314	$0.289
Tests Correct
Attempt pass rate	70.6%	68.6%
Flaky tests	4	6
Total Runs	51	51
Output Tokens	2,238	1,708
Reasoning Tokens	16,811	58,019
Response Time (avg)	13.93s	15.66s
Response Time (max)	77.80s	102.91s
Response Time (total)	139.29s	266.14s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614
GPT-5.4 Mini	7.4	6.5	66.7%	1		2.50s	129	1,337

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.2	7.7	7.3	77.8%	1		5.47s	609	938
GPT-5.4 Mini	6.8	7.9	55.6%	1		4.33s	271	2,449

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594

Quick Compare

Switch Comparison Pair

Claude Sonnet 4.6nonevsGPT-5.2medium Claude Sonnet 4.6nonevsGPT-5.4 Minimedium GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15none GPT-5.4 MinimediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium GPT-5.2mediumvsQwen3.5 Plus 2026-02-15none GPT-5.2mediumvsGLM 5none Gemini 3 Flash PreviewnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4 Minimedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2medium DeepSeek V3.2nonevsGPT-5.4 Minimedium Gemini 3 Flash PreviewnonevsGPT-5.4 Minimedium