AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs OpenAI: GPT-5.2 Chat

Last updated at: 2026-04-16

Metric	DeepSeek V3.2 DeepSeek V3.2 medium Release: 2025-12-01	GPT-5.2 Chat GPT-5.2 Chat none Release: 2025-12-11

Metric	DeepSeek V3.2 DeepSeek V3.2 medium Release: 2025-12-01	GPT-5.2 Chat GPT-5.2 Chat none Release: 2025-12-11
Score	8.0	7.9
Rank	#27	#28
Consistency	8.2	8.7
Tests Correct
Attempt pass rate	79.6%	75.9%
Flaky tests	4	3
Total Runs	54	54
Cost per result	0.240	2.424
Total Cost	$0.029	$0.291
Input Price	$0.260 / 1M	$1.750 / 1M
Output Price	$0.380 / 1M	$14.000 / 1M
Output Tokens	10,620	17,346
Reasoning Tokens	48,511	0
Response Time (avg)	46.41s	6.84s
Response Time (max)	180.92s	38.52s
Response Time (total)	835.33s	123.17s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	8.4	9.9	75.0%	0		30.72s	3,773	7,523
GPT-5.2 Chat	8.7	7.9	91.7%	1		3.40s	1,807	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	4.7	1.6	66.7%	1		180.92s	626	6,792
GPT-5.2 Chat	10.0	10.0	100.0%	0		8.97s	1,345	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		93.11s	571	6,296
GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	1,243	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	207	7,693
GPT-5.2 Chat	10.0	10.0	100.0%	0		3.05s	980	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	5.3	7.2	44.4%	1		39.32s	3,081	7,856
GPT-5.2 Chat	5.3	10.0	33.3%	0		17.78s	7,810	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	5.4	2.5	66.7%	1		31.30s	68	2,366
GPT-5.2 Chat	4.4	3.0	33.3%	1		3.20s	335	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	1,397	2,845
GPT-5.2 Chat	7.5	6.1	83.3%	1		5.46s	1,528	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	8.2	7.2	88.9%	1		36.87s	390	6,281
GPT-5.2 Chat	7.7	10.0	66.7%	0		4.42s	1,743	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	507	859
GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	555	0

Quick Compare

Switch Comparison Pair

GPT-5.2 ChatnonevsStep 3.5 Flashmedium DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone GPT-5.2 ChatnonevsGLM 5V Turbomedium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.5-Flashmedium DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow Gemma 4 26B A4BmediumFree AvailablevsGPT-5.2 Chatnone GPT-5.2 ChatnonevsGLM 5.1medium DeepSeek V3.2mediumvsGemini 3 Flash Previewnone GPT-5.2 ChatnonevsMiMo-V2-Promedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.6 Plusmedium