AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs Qwen: Qwen3.5-27B

Last updated at: 2026-06-02

Metric	DeepSeek V4 Pro DeepSeek V4 Pro high Release: 2026-04-24	Qwen3.5-27B Qwen3.5-27B none Release: 2026-02-24

Metric	DeepSeek V4 Pro DeepSeek V4 Pro high Release: 2026-04-24	Qwen3.5-27B Qwen3.5-27B none Release: 2026-02-24
Score	6.4	5.8
Rank	#96	#112
Reliability	8.9	10.0
Consistency	8.7	9.3
Tests Correct
Attempt pass rate	55.0%	40.0%
Flaky tests	6	2
Total Runs	60	60
Cost per result	1.935	0.241
Total Cost	$0.062	$0.014
Input Price	$0.435 / 1M	$0.195 / 1M
Output Price	$0.870 / 1M	$1.560 / 1M
Total Input Tokens	30,514	41,637
Output Tokens	12,244	3,585
Reasoning Tokens	53,958	0
Response Time (avg)	58.92s	1.69s
Response Time (max)	358.35s	9.39s
Response Time (total)	1119.51s	33.82s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	7.0	10.0	58.3%	1		16.53s	448	71	3,617
Qwen3.5-27B	4.8	10.0	25.0%	0		788ms	696	267	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	2.6	5.0	16.7%	1		51.77s	240	105	2,641
Qwen3.5-27B	7.3	10.0	50.0%	0		1.98s	5,072	408	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		65.02s	14,016	465	5,914
Qwen3.5-27B	2.8	1.6	33.3%	1		9.39s	16,918	1,461	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	8.3	10.0	83.3%	1		23.62s	5,633	229	1,710
Qwen3.5-27B	10.0	10.0	100.0%	0		1.43s	7,794	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	2.9	6.9	11.1%	1		205.66s	430	10,529	28,089
Qwen3.5-27B	3.0	10.0	0.0%	0		540ms	789	15	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	6.1	3.1	66.7%	1		25.09s	314	76	1,152
Qwen3.5-27B	5.0	10.0	0.0%	0		2.51s	522	126	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		41.16s	627	205	2,416
Qwen3.5-27B	6.3	10.0	50.0%	0		1.03s	711	69	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	6.6	10.0	55.6%	1		34.84s	544	139	4,019
Qwen3.5-27B	6.7	7.9	55.6%	1		1.38s	714	683	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	10.0	10.0	100.0%	0		21.33s	8,079	372	593
Qwen3.5-27B	10.0	10.0	100.0%	0		3.54s	8,211	303	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V4 Pro	3.0	10.0	0.0%	0		39.14s	183	53	3,807
Qwen3.5-27B	3.0	10.0	0.0%	0		599ms	210	10	0

Quick Compare

Switch Comparison Pair

DeepSeek V4 ProhighvsGemini 2.5 Flashnone CobuddymediumvsQwen3.5-27Bnone DeepSeek V4 ProhighvsQwen3.5 Plus 2026-02-15none DeepSeek V4 ProhighvsGLM 5none Owl AlphamediumvsQwen3.5-27Bnone DeepSeek V4 ProhighvsMercury 2medium gpt-oss-120bmediumFree AvailablevsQwen3.5-27Bnone Nemotron 3 SupermediumFree AvailablevsQwen3.5-27Bnone DeepSeek V4 ProhighvsGemma 4 26B A4BnoneFree Available DeepSeek V4 ProhighvsMimo V2 Omninone DeepSeek V4 ProhighvsGPT-5.5none DeepSeek V4 ProhighvsGemini 3.1 Flash Litenone