AI BENCHY Compare

Inception: Mercury 2 vs Qwen: Qwen3.5 Plus 2026-02-15

Last updated at: 2026-06-03

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none Release: 2026-02-15

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none Release: 2026-02-15
Score	6.5	6.4
Rank	#89	#92
Reliability	10.0	10.0
Consistency	8.8	9.3
Tests Correct
Attempt pass rate	51.7%	48.3%
Flaky tests	3	2
Total Runs	60	60
Cost per result	0.611	0.195
Total Cost	$0.055	$0.016
Input Price	$0.250 / 1M	$0.260 / 1M
Output Price	$0.750 / 1M	$1.560 / 1M
Total Input Tokens	32,570	43,023
Output Tokens	4,022	2,474
Reasoning Tokens	58,405	0
Response Time (avg)	2.27s	2.40s
Response Time (max)	14.63s	6.65s
Response Time (total)	43.20s	33.56s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609
Qwen3.5 Plus 2026-02-15	4.8	10.0	25.0%	0		1.91s	696	517	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	7.2	6.5	66.7%	1		2.29s	4,519	270	8,514
Qwen3.5 Plus 2026-02-15	4.9	6.9	16.7%	1		2.54s	5,072	467	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		6.65s	18,304	314	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.89s	7,794	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754
Qwen3.5 Plus 2026-02-15	5.3	10.0	33.3%	0		1.17s	789	17	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542
Qwen3.5 Plus 2026-02-15	4.4	3.0	33.3%	1		2.26s	522	117	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.67s	711	72	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781
Qwen3.5 Plus 2026-02-15	7.7	10.0	66.7%	0		2.71s	714	494	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		3.33s	8,211	222	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		1.11s	210	11	0

Quick Compare

Switch Comparison Pair

Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium Mercury 2mediumvsQwen3.7 Plusnone Mercury 2mediumvsRing-2.6-1Tnone Gemini 2.5 FlashnonevsMercury 2medium Gemini 3.1 Flash LiteminimalvsMercury 2medium Mercury 2mediumvsGLM 5none Gemma 4 31BnoneFree AvailablevsMercury 2medium GPT-5 NanomediumvsQwen3.5 Plus 2026-02-15none Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash LiteminimalvsQwen3.5 Plus 2026-02-15none DeepSeek V4 ProhighvsQwen3.5 Plus 2026-02-15none