AI BENCHY Compare

Inception: Mercury 2 vs Elephant Alpha

Last updated at: 2026-05-29

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	Elephant Alpha Elephant Alpha none Release: 2026-04-14

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	Elephant Alpha Elephant Alpha none Release: 2026-04-14
Score	6.5	5.2
Rank	#92	#136
Reliability	10.0	N/A
Consistency	8.8	9.6
Tests Correct
Attempt pass rate	51.7%	29.8%
Flaky tests	3	1
Total Runs	60	60
Cost per result	0.611	0.000
Total Cost	$0.055	$0.000
Input Price	$0.250 / 1M	$0.000 / 1M
Output Price	$0.750 / 1M	$0.000 / 1M
Output Tokens	4,022	2,573
Reasoning Tokens	58,405	0
Response Time (avg)	2.27s	1.22s
Response Time (max)	14.63s	3.81s
Response Time (total)	43.20s	22.03s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
Elephant Alpha	6.6	10.0	50.0%	0		963ms	610	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	7.2	6.5	66.7%	1		2.29s	270	8,514
Elephant Alpha	4.7	6.7	33.3%	1		1.39s	375	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
Elephant Alpha	3.0	10.0	0.0%	0		3.81s	731	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
Elephant Alpha	6.5	10.0	50.0%	0		1.04s	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
Elephant Alpha	3.0	10.0	0.0%	0		927ms	24	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
Elephant Alpha	4.0	10.0	0.0%	0		854ms	106	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
Elephant Alpha	9.8	10.0	100.0%	0		1.03s	81	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	5.4	10.0	33.3%	0		949ms	361	2,781
Elephant Alpha	4.2	10.0	0.0%	0		807ms	170	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
Elephant Alpha	3.0	10.0	0.0%	0		2.79s	230	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	3.0	10.0	0.0%	0		2.58s	22	3,748
Elephant Alpha	0.0	0.0	0.0%	0		0ms	0	0

Quick Compare

Switch Comparison Pair

Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Gemini 2.5 FlashnonevsMercury 2medium MiniMax M2.7mediumvsElephant Alphanone Mistral Small 4mediumvsElephant Alphanone Gemini 3.1 Flash LiteminimalvsMercury 2medium Mercury 2mediumvsGLM 5none Gemma 4 31BnoneFree AvailablevsMercury 2medium MiniMax M2.5mediumFree AvailablevsElephant Alphanone DeepSeek V3.2nonevsMercury 2medium DeepSeek V4 PrononevsMercury 2medium