AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Qwen: Qwen3.5 Plus 2026-04-20

Last updated at: 2026-04-27

Metric	Claude Opus 4.7 Claude Opus 4.7 medium Release: 2026-04-16	Qwen3.5 Plus 2026-04-20 Qwen3.5 Plus 2026-04-20 medium Release: 2026-04-20

Metric	Claude Opus 4.7 Claude Opus 4.7 medium Release: 2026-04-16	Qwen3.5 Plus 2026-04-20 Qwen3.5 Plus 2026-04-20 medium Release: 2026-04-20
Score	9.2	8.1
Rank	#3	#32
Reliability	N/A	9.7
Consistency	10.0	9.0
Tests Correct
Attempt pass rate	88.9%	77.8%
Flaky tests	0	2
Total Runs	54	54
Cost per result	2.790	2.065
Total Cost	$0.447	$0.269
Input Price	$5.000 / 1M	$0.400 / 1M
Output Price	$25.000 / 1M	$2.400 / 1M
Output Tokens	5,375	2,179
Reasoning Tokens	1,341	103,832
Response Time (avg)	3.53s	32.81s
Response Time (max)	21.45s	92.41s
Response Time (total)	60.03s	590.65s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	348	0
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		10.84s	215	7,748

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		6.41s	1,141	257
Qwen3.5 Plus 2026-04-20	7.6	10.0	100.0%	0		85.72s	248	11,081

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	2,369	1,084
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		92.41s	483	17,490

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	324	0
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		38.32s	270	14,668

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	51	0
Qwen3.5 Plus 2026-04-20	2.9	7.2	11.1%	1		53.10s	63	28,414

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	256	0
Qwen3.5 Plus 2026-04-20	4.9	9.6	0.0%	0		25.30s	125	4,792

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	114	0
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		20.25s	103	7,689

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.51s	399	0
Qwen3.5 Plus 2026-04-20	8.2	7.2	88.9%	1		17.58s	324	9,786

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	373	0
Qwen3.5 Plus 2026-04-20	10.0	10.0	100.0%	0		14.72s	348	2,164

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium Gemini 3 Flash PreviewnonevsQwen3.5 Plus 2026-04-20medium Qwen3.5 Plus 2026-04-20mediumvsHY3 PreviewlowFree Available GPT-5.2 ChatnonevsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5 Plus 2026-04-20medium Claude Opus 4.7mediumvsGPT-5.5low DeepSeek V4 FlashhighvsQwen3.5 Plus 2026-04-20medium Qwen3.5 Plus 2026-04-20mediumvsHY3 PreviewhighFree Available Claude Opus 4.7mediumvsGemini 3 Flash Previewlow GPT-5.3 ChatnonevsQwen3.5 Plus 2026-04-20medium Claude Sonnet 4.6nonevsQwen3.5 Plus 2026-04-20medium Gemini 3 Flash PreviewlowvsQwen3.5 Plus 2026-04-20medium