AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs DeepSeek: DeepSeek V4 Pro

Last updated at: 2026-04-24

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	DeepSeek V4 Pro DeepSeek V4 Pro high Release: 2026-04-24

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	DeepSeek V4 Pro DeepSeek V4 Pro high Release: 2026-04-24
Score	7.4	7.4
Rank	#48	#50
Consistency	9.6	10.0
Tests Correct
Attempt pass rate	64.8%	61.1%
Flaky tests	1	0
Total Runs	54	24
Cost per result	2.376	1.385
Total Cost	$0.262	$0.153
Input Price	$3.000 / 1M	$1.740 / 1M
Output Price	$15.000 / 1M	$3.480 / 1M
Output Tokens	7,433	584
Reasoning Tokens	0	37,708
Response Time (avg)	4.98s	78.45s
Response Time (max)	23.84s	351.99s
Response Time (total)	54.83s	1255.22s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	1,214	0
DeepSeek V4 Pro	8.3	10.0	75.0%	0		32.12s	64	1,799

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.67s	523	0
DeepSeek V4 Pro	10.0	10.0	100.0%	0		93.00s	82	2,808

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	9.5	10.0	100.0%	0		23.84s	3,766	0
DeepSeek V4 Pro	10.0	10.0	100.0%	0		71.08s	134	2,163

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	252	0
DeepSeek V4 Pro	10.0	10.0	100.0%	0		63.00s	67	1,071

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	413	0
DeepSeek V4 Pro	5.3	10.0	33.3%	0		202.56s	11	25,343

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	192	0
DeepSeek V4 Pro	5.0	10.0	0.0%	0		26.96s	51	734

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	90	0
DeepSeek V4 Pro	3.0	10.0	0.0%	0		0ms	0	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.92s	536	0
DeepSeek V4 Pro	7.7	10.0	66.7%	0		63.66s	91	3,617

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	447	0
DeepSeek V4 Pro	10.0	10.0	100.0%	0		11.05s	84	173

Quick Compare

Switch Comparison Pair

Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium DeepSeek V4 ProhighvsQwen3.5-35B-A3Bmedium Claude Sonnet 4.6nonevsMiMo-V2-Flashmedium Claude Sonnet 4.6nonevsGPT-5.2medium DeepSeek V4 ProhighvsMiMo-V2-Flashmedium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium DeepSeek V4 ProhighvsGPT-5.2medium DeepSeek V4 ProhighvsGPT-5.4 Minimedium Seed-2.0-MinimediumvsDeepSeek V4 Prohigh Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium Claude Sonnet 4.6nonevsGPT-5.4 Minimedium DeepSeek V4 ProhighvsGPT-5.4 Nanomedium