Claude Sonnet 4.6 vs Qwen3.5-27B (medium)

Recommended model Claude Sonnet 4.6

Its score stays close to the best score here (7.3 vs 7.4), while responding about 13.8x faster than Qwen3.5-27B (medium).

Detailed comparison

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	Qwen3.5-27B Qwen3.5-27B medium Release: 2026-02-24

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	Qwen3.5-27B Qwen3.5-27B medium Release: 2026-02-24
Score	7.3	7.4
Rank	#76	#71
Reliability	10.0	10.0
Consistency	9.7	8.2
Tests Correct
Attempt pass rate	57.6%	72.7%
Flaky tests	1	5
Total Runs	66	66
Cost per result	5.502	8.324
Total Cost	$0.661	$0.981
Input Price	$3.000 / 1M	$0.195 / 1M
Output Price	$15.000 / 1M	$1.560 / 1M
Total Input Tokens	123,264	111,635
Output Tokens	19,362	15,999
Reasoning Tokens	0	598,430
Response Time (avg)	8.12s	111.94s
Response Time (max)	51.18s	1026.43s
Response Time (total)	121.78s	2462.67s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

none

medium

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	636	1,214	0
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	672	569	31,505

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	5.5	10.0	33.3%	0		5.19s	8,522	2,127	0
Qwen3.5-27B	6.2	7.1	55.6%	1		160.69s	7,895	6,381	89,388

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	9.8	10.0	100.0%	0		37.51s	91,402	13,663	0
Qwen3.5-27B	7.3	5.8	83.3%	1		595.19s	84,417	7,948	279,132

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	8,574	252	0
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	7,782	270	16,150

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	759	413	0
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	553	43	52,368

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	513	192	0
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	524	70	23,147

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	690	90	0
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	699	97	11,638

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.53s	663	533	0
Qwen3.5-27B	8.2	7.7	77.8%	1		59.60s	696	242	70,096

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	11,301	447	0
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	8,193	348	1,323

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	3.0	10.0	0.0%	0		4.67s	204	431	0
Qwen3.5-27B	3.0	10.0	0.0%	0		85.11s	204	31	23,683

Switch Comparison Pair