AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs DeepSeek: DeepSeek V3.2

Last updated at: 2026-04-30

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	DeepSeek V3.2 DeepSeek V3.2 medium Release: 2025-12-01

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	DeepSeek V3.2 DeepSeek V3.2 medium Release: 2025-12-01
Score	8.0	8.0
Rank	#36	#37
Reliability	N/A	N/A
Consistency	9.5	8.2
Tests Correct
Attempt pass rate	74.1%	79.6%
Flaky tests	1	4
Total Runs	54	52
Cost per result	8.930	0.231
Total Cost	$1.161	$0.028
Input Price	$3.000 / 1M	$0.252 / 1M
Output Price	$15.000 / 1M	$0.378 / 1M
Output Tokens	42,068	7,554
Reasoning Tokens	26,784	45,588
Response Time (avg)	12.66s	43.49s
Response Time (max)	46.35s	180.92s
Response Time (total)	126.62s	782.73s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
DeepSeek V3.2	8.4	9.9	75.0%	0		30.72s	3,773	7,523

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		35.76s	6,894	2,097
DeepSeek V3.2	4.7	1.6	66.7%	1		180.92s	626	6,792

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
DeepSeek V3.2	10.0	10.0	100.0%	0		93.11s	571	6,296

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	207	7,693

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
DeepSeek V3.2	5.3	7.2	44.4%	1		21.78s	15	4,933

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
DeepSeek V3.2	5.4	2.5	66.7%	1		31.30s	68	2,366

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	1,397	2,845

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
DeepSeek V3.2	8.2	7.2	88.9%	1		36.87s	390	6,281

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	507	859

Quick Compare

Switch Comparison Pair

DeepSeek V3.2mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsHY3 PreviewlowFree Available Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone DeepSeek V3.2mediumvsGemini 3 Flash Previewnone DeepSeek V3.2mediumvsHY3 PreviewlowFree Available DeepSeek V3.2mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone