AI BENCHY Compare

Anthropic: Claude Sonnet 5 vs Qwen: Qwen3.6 27B

Summary

Claude Sonnet 5 vs Qwen3.6 27B benchmark comparison: Qwen3.6 27B leads on average score with 6.6 vs 5.7. Claude Sonnet 5 has the lower benchmark cost at $0.287 vs $0.336. Claude Sonnet 5 is faster at 4.74s vs 59.71s, with pass rates of 42.9% vs 60.3%.

Recommended model: Claude Sonnet 5 - It offers the best overall trade-off: a competitive score (5.7), lower cost than Qwen3.6 27B, and balanced response time.

Last updated at: 2026-06-30

Metric	Claude Sonnet 5 Claude Sonnet 5 none Release: 2026-06-30	Qwen3.6 27B Qwen3.6 27B medium Release: 2026-04-20

Metric	Claude Sonnet 5 Claude Sonnet 5 none Release: 2026-06-30	Qwen3.6 27B Qwen3.6 27B medium Release: 2026-04-20
Score	5.7	6.6
Rank	#117	#83
Reliability	10.0	10.0
Consistency	8.6	8.2
Tests Correct
Attempt pass rate	42.9%	60.3%
Flaky tests	4	5
Total Runs	63	63
Cost per result	4.098	3.361
Total Cost	$0.287	$0.336
Input Price	$2.000 / 1M	$0.286 / 1M
Output Price	$10.000 / 1M	$2.400 / 1M
Total Input Tokens	76,797	39,376
Output Tokens	13,325	16,189
Reasoning Tokens	0	122,521
Response Time (avg)	4.74s	59.71s
Response Time (max)	29.46s	168.22s
Response Time (total)	99.46s	1254.01s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#117 Claude Sonnet 5

none

Cost: $0.061
Time: 53.7s
Tokens: 6,172 tok

#83 Qwen3.6 27B

medium

Cost: $0.009
Time: 39.6s
Tokens: 3,090 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	5.3	10.0	25.0%	0		3.60s	834	1,813	0
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	453	582	4,311

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	4.6	7.9	22.2%	1		3.67s	10,590	1,864	0
Qwen3.6 27B	7.7	10.0	66.7%	0		142.99s	5,051	7,968	43,367

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	3.0	10.0	0.0%	0		29.46s	38,775	6,340	0
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	15,104	2,088	14,689

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	10.0	10.0	100.0%	0		3.01s	10,503	309	0
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	7,778	568	9,404

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	5.3	7.2	44.4%	1		3.28s	975	933	0
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	662	3,510	20,352

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	4.7	3.1	33.3%	1		2.81s	708	272	0
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	516	81	3,045

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	6.4	10.0	50.0%	0		2.58s	909	103	0
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	699	346	6,548

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	6.0	7.4	55.6%	1		3.22s	894	778	0
Qwen3.6 27B	7.7	10.0	66.7%	0		61.14s	696	255	12,044

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	10.0	10.0	100.0%	0		6.80s	12,351	522	0
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	8,213	390	2,954

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	3.0	10.0	0.0%	0		4.31s	258	391	0
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	204	401	5,807

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 27Bmedium Gemini 3.1 Flash LitelowvsQwen3.6 27Bmedium Claude Sonnet 5nonevsNorth Mini CodemediumFree Available Gemini 3.5 FlashminimalvsQwen3.6 27Bmedium GPT-5.5nonevsQwen3.6 27Bmedium Gemini 3 Flash PreviewnonevsQwen3.6 27Bmedium Seed-2.0-LitenonevsQwen3.6 27Bmedium Gemini 3.5 FlashnonevsQwen3.6 27Bmedium Gemini 2.5 FlashnonevsQwen3.6 27Bmedium Claude Sonnet 5nonevsGemini 3.1 Flash Liteminimal Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bmedium