AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Qwen: Qwen3.5-35B-A3B

Last updated at: 2026-05-22

Metric	DeepSeek V4 Pro DeepSeek V4 Pro high Release: 2026-04-24	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Release: 2026-02-24

Metric	DeepSeek V4 Pro DeepSeek V4 Pro high Release: 2026-04-24	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Release: 2026-02-24
Score	6.6	5.8
Rank	#80	#102
Reliability	9.0	10.0
Consistency	8.3	8.9
Tests Correct
Attempt pass rate	66.7%	45.0%
Flaky tests	4	3
Total Runs	60	60
Cost per result	1.927	0.224
Total Cost	$0.212	$0.016
Input Price	$0.435 / 1M	$0.139 / 1M
Output Price	$0.870 / 1M	$1.000 / 1M
Output Tokens	12,211	4,334
Reasoning Tokens	53,774	0
Response Time (avg)	58.93s	3.50s
Response Time (max)	358.35s	47.43s
Response Time (total)	1119.75s	69.99s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	7.4	10.0	75.0%	0		16.53s	71	3,617
Qwen3.5-35B-A3B	3.4	7.9	16.7%	1		1.43s	574	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	2.8	5.0	25.0%	1		51.77s	105	2,641
Qwen3.5-35B-A3B	6.8	10.0	50.0%	0		1.72s	562	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		65.02s	465	5,914
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		47.43s	1,833	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	8.8	10.0	100.0%	0		23.62s	229	1,710
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		1.16s	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	3.0	6.9	16.7%	1		205.66s	10,529	28,089
Qwen3.5-35B-A3B	7.7	10.0	66.7%	0		485ms	15	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	6.1	3.1	66.7%	1		25.09s	76	1,152
Qwen3.5-35B-A3B	6.5	3.4	66.7%	1		1.19s	114	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		41.16s	205	2,416
Qwen3.5-35B-A3B	6.3	10.0	50.0%	0		809ms	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	7.4	7.2	88.9%	1		34.92s	106	3,835
Qwen3.5-35B-A3B	3.7	7.4	22.2%	1		1.34s	655	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		21.33s	372	593
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.30s	264	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	3.0	10.0	0.0%	0		39.14s	53	3,807
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		493ms	11	0

Quick Compare

Switch Comparison Pair

DeepSeek V4 ProhighvsKimi K2.5medium DeepSeek V4 ProhighvsGemini 3.1 Flash Liteminimal DeepSeek V4 ProhighvsGrok Build 0.1none Owl AlphamediumvsQwen3.5-35B-A3Bnone DeepSeek V4 ProhighvsGrok 4.20medium CobuddymediumFree AvailablevsQwen3.5-35B-A3Bnone DeepSeek V4 ProhighvsGemma 4 31BnoneFree Available DeepSeek V4 ProhighvsQwen3.6 27Bmedium DeepSeek V4 ProhighvsGemini 3.1 Flash Litenone DeepSeek V4 ProhighvsGPT-5.5none Nemotron 3 SupermediumFree AvailablevsQwen3.5-35B-A3Bnone gpt-oss-120bmediumFree AvailablevsQwen3.5-35B-A3Bnone