AI BENCHY Compare

Anthropic: Claude Sonnet 5 vs Qwen: Qwen3.5 Plus 2026-02-15

Summary

Claude Sonnet 5 vs Qwen3.5 Plus 2026-02-15 benchmark comparison: Qwen3.5 Plus 2026-02-15 leads on average score with 8.0 vs 7.9. Qwen3.5 Plus 2026-02-15 has the lower benchmark cost at $0.310 vs $0.550. Claude Sonnet 5 is faster at 9.94s vs 73.79s, with pass rates of 79.4% vs 73.0%.

Recommended model: Claude Sonnet 5 - Its score stays close to the best score here (7.9 vs 8.0), while responding about 7.4x faster than Qwen3.5 Plus 2026-02-15.

Last updated at: 2026-06-30

Metric	Claude Sonnet 5 Claude Sonnet 5 medium Release: 2026-06-30	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 medium Release: 2026-02-15

Metric	Claude Sonnet 5 Claude Sonnet 5 medium Release: 2026-06-30	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 medium Release: 2026-02-15
Score	7.9	8.0
Rank	#30	#28
Reliability	10.0	10.0
Consistency	9.0	8.8
Tests Correct
Attempt pass rate	79.4%	73.0%
Flaky tests	3	3
Total Runs	63	63
Cost per result	3.662	2.445
Total Cost	$0.550	$0.310
Input Price	$2.000 / 1M	$0.260 / 1M
Output Price	$10.000 / 1M	$1.560 / 1M
Total Input Tokens	67,416	40,918
Output Tokens	34,012	2,159
Reasoning Tokens	7,673	189,604
Response Time (avg)	9.94s	73.79s
Response Time (max)	56.94s	266.69s
Response Time (total)	208.71s	1033.07s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 Claude Sonnet 5

medium

Cost: $0.007
Time: 6.4s
Tokens: 832 tok

#28 Qwen3.5 Plus 2026-02-15

medium

Cost: $0.011
Time: 125.5s
Tokens: 7,040 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	10.0	10.0	100.0%	0		3.80s	834	1,220	446
Qwen3.5 Plus 2026-02-15	8.2	7.9	83.3%	1		45.78s	672	205	21,236

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	9.0	7.9	88.9%	1		17.28s	10,590	13,153	2,379
Qwen3.5 Plus 2026-02-15	6.6	7.1	44.4%	1		180.70s	6,950	420	80,595

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	4.5	2.1	66.7%	1		37.01s	29,394	4,848	2,170
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		46.85s	14,934	421	7,906

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	10.0	10.0	100.0%	0		3.16s	10,503	312	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		46.91s	7,782	270	14,916

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	7.7	10.0	66.7%	0		20.38s	975	12,140	1,994
Qwen3.5 Plus 2026-02-15	5.3	10.0	33.3%	0		17.50s	444	35	16,680

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	4.8	3.2	33.3%	1		4.32s	708	264	0
Qwen3.5 Plus 2026-02-15	4.7	1.6	66.7%	1		79.86s	344	73	8,675

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	9.9	10.0	100.0%	0		3.10s	909	318	269
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		31.93s	699	101	7,704

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	7.7	10.0	66.7%	0		2.98s	894	407	121
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		32.50s	696	301	13,853

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	10.0	10.0	100.0%	0		10.70s	12,351	433	90
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		7.54s	8,193	309	909

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	3.0	10.0	0.0%	0		7.06s	258	917	204
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		103.81s	204	24	17,130

Quick Compare

Switch Comparison Pair

Claude Sonnet 5mediumvsStep 3.7 Flashlow Claude Sonnet 5mediumvsDeepSeek V4 Prohigh Claude Opus 4.8lowvsQwen3.5 Plus 2026-02-15medium DeepSeek V4 FlashhighvsQwen3.5 Plus 2026-02-15medium Qwen3.5 Plus 2026-02-15mediumvsStep 3.7 Flashlow Claude Sonnet 5mediumvsGPT-5.3 Chatnone DeepSeek V4 ProhighvsQwen3.5 Plus 2026-02-15medium Claude Sonnet 5mediumvsDeepSeek V4 Flashhigh Claude Sonnet 5mediumvsGemini 3 Flash Previewlow GPT-5.2 ChatnonevsQwen3.5 Plus 2026-02-15medium GPT-5.3 ChatnonevsQwen3.5 Plus 2026-02-15medium Gemini 3 Flash PreviewlowvsQwen3.5 Plus 2026-02-15medium