AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: GPT-5.4

Last updated at: 2026-06-03

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	GPT-5.4 GPT-5.4 none Release: 2026-03-05

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	GPT-5.4 GPT-5.4 none Release: 2026-03-05
Score	6.5	5.6
Rank	#89	#121
Reliability	10.0	10.0
Consistency	8.8	9.1
Tests Correct
Attempt pass rate	51.7%	38.3%
Flaky tests	3	2
Total Runs	60	60
Cost per result	0.611	1.644
Total Cost	$0.055	$0.116
Input Price	$0.250 / 1M	$2.500 / 1M
Output Price	$0.750 / 1M	$15.000 / 1M
Total Input Tokens	32,570	31,593
Output Tokens	4,022	2,402
Reasoning Tokens	58,405	0
Response Time (avg)	2.27s	1.45s
Response Time (max)	14.63s	2.95s
Response Time (total)	43.20s	29.00s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609
GPT-5.4	3.2	8.0	8.3%	1		1.21s	606	406	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	7.2	6.5	66.7%	1		2.29s	4,519	270	8,514
GPT-5.4	6.8	10.0	50.0%	0		1.99s	4,686	501	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887
GPT-5.4	3.0	10.0	0.0%	0		2.89s	11,019	291	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656
GPT-5.4	10.0	10.0	100.0%	0		1.04s	7,140	222	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754
GPT-5.4	5.3	7.2	44.4%	1		1.07s	723	50	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542
GPT-5.4	4.4	9.9	0.0%	0		1.78s	477	184	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958
GPT-5.4	6.5	10.0	50.0%	0		1.07s	660	81	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781
GPT-5.4	5.6	9.8	33.3%	0		1.44s	642	381	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956
GPT-5.4	10.0	10.0	100.0%	0		2.75s	5,445	246	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748
GPT-5.4	3.0	10.0	0.0%	0		990ms	195	40	0

Quick Compare

Switch Comparison Pair

Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium Mercury 2mediumvsQwen3.7 Plusnone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsRing-2.6-1Tnone MiniMax M2.5mediumvsGPT-5.4none Gemini 2.5 FlashnonevsMercury 2medium CobuddymediumvsGPT-5.4none Gemini 3.1 Flash LiteminimalvsMercury 2medium MiniMax M2.7mediumvsGPT-5.4none Mistral Small 4mediumvsGPT-5.4none Mercury 2mediumvsGLM 5none