AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs OpenAI: GPT-5.4 Mini

Last updated at: 2026-03-17

Metric	DeepSeek V3.2 DeepSeek V3.2 none Release: 2025-12-01	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17

Metric	DeepSeek V3.2 DeepSeek V3.2 none Release: 2025-12-01	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17
Rank	#41	#34
Score	6.4	7.1
Consistency	8.5	7.2
Cost per result	0.220	3.610
Total Cost	$0.016	$0.289
Tests Correct
Attempt pass rate	51.0%	68.6%
Flaky tests	3	6
Total Runs	51	51
Output Tokens	7,831	1,708
Reasoning Tokens	0	58,019
Response Time (avg)	12.35s	15.66s
Response Time (max)	115.89s	102.91s
Response Time (total)	209.94s	266.14s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	3.2	9.8	0.0%	0		7.63s	1,419	0
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	6.5	10.0	0.0%	0		115.89s	2,887	0
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	1,710	0
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	3.6	7.2	22.2%	1		1.61s	24	0
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		2.86s	67	0
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	66	0
GPT-5.4 Mini	7.4	6.5	66.7%	1		2.50s	129	1,337

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	8.5	7.5	88.9%	1		7.37s	1,136	0
GPT-5.4 Mini	6.8	7.9	55.6%	1		4.33s	271	2,449

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	522	0
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594

Quick Compare

Switch Comparison Pair

DeepSeek V3.2nonevsMercury 2medium DeepSeek V3.2nonevsGPT-5 Nanomedium DeepSeek V3.2nonevsGrok 4.20 Multi-Agent Betamedium Claude Sonnet 4.6nonevsGPT-5.4 Minimedium GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15none DeepSeek V3.2nonevsgpt-oss-120bmediumFree Available GPT-5.4 MinimediumvsGLM 5none DeepSeek V3.2nonevsMiniMax M2.5mediumFree Available DeepSeek V3.2nonevsGPT-5 Minimedium DeepSeek V3.2nonevsNemotron 3 Super 120b A12bmediumFree Available DeepSeek V3.2nonevsGrok 4.1 Fastmedium DeepSeek V3.2nonevsHunter Alphamedium