AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Qwen: Qwen3.6 Max Preview

Last updated at: 2026-04-27

Metric	Claude Opus 4.7 Claude Opus 4.7 medium Release: 2026-04-16	Qwen3.6 Max Preview Qwen3.6 Max Preview none Release: 2026-04-20

Metric	Claude Opus 4.7 Claude Opus 4.7 medium Release: 2026-04-16	Qwen3.6 Max Preview Qwen3.6 Max Preview none Release: 2026-04-20
Score	9.2	7.3
Rank	#3	#56
Reliability	N/A	10.0
Consistency	10.0	8.7
Tests Correct
Attempt pass rate	88.9%	66.7%
Flaky tests	0	3
Total Runs	54	54
Cost per result	2.790	0.827
Total Cost	$0.447	$0.083
Input Price	$5.000 / 1M	$1.300 / 1M
Output Price	$25.000 / 1M	$7.800 / 1M
Output Tokens	5,375	4,732
Reasoning Tokens	1,341	0
Response Time (avg)	3.53s	3.38s
Response Time (max)	21.45s	20.51s
Response Time (total)	60.03s	60.83s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	348	0
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	513	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		6.41s	1,141	257
Qwen3.6 Max Preview	5.0	2.0	66.7%	1		3.45s	426	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	2,369	1,084
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	2,842	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	324	0
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	51	0
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	18	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	256	0
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	76	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	114	0
Qwen3.6 Max Preview	8.4	6.9	83.3%	1		1.45s	69	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		2.51s	399	0
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.38s	323	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	373	0
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	222	0

Quick Compare

Switch Comparison Pair

GPT-5.4 MinimediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Flashmedium GPT-5.2mediumvsQwen3.6 Max Previewnone Seed-2.0-MinimediumvsQwen3.6 Max Previewnone Claude Opus 4.7mediumvsGPT-5.5low GPT-5.4 NanomediumvsQwen3.6 Max Previewnone Claude Opus 4.6mediumvsQwen3.6 Max Previewnone GPT-5 MinimediumvsQwen3.6 Max Previewnone Kimi K2.5mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium Qwen3.6 Max PreviewnonevsGrok 4.20medium Kimi K2.6mediumvsQwen3.6 Max Previewnone