AI BENCHY Compare

Inception: Mercury 2 vs MoonshotAI: Kimi K2.5

Last updated at: 2026-06-03

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27
Score	6.5	6.7
Rank	#89	#81
Reliability	10.0	10.0
Consistency	8.8	6.8
Tests Correct
Attempt pass rate	51.7%	66.7%
Flaky tests	3	8
Total Runs	60	60
Cost per result	0.611	3.486
Total Cost	$0.055	$0.272
Input Price	$0.250 / 1M	$0.400 / 1M
Output Price	$0.750 / 1M	$1.900 / 1M
Total Input Tokens	32,570	31,717
Output Tokens	4,022	48,374
Reasoning Tokens	58,405	128,473
Response Time (avg)	2.27s	89.02s
Response Time (max)	14.63s	281.00s
Response Time (total)	43.20s	1157.32s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	7.2	6.5	66.7%	1		2.29s	4,519	270	8,514
Kimi K2.5	4.1	1.9	50.0%	2		215.89s	4,340	5,700	45,419

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	11,280	703	3,713

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash LiteminimalvsKimi K2.5medium Gemma 4 31BnoneFree AvailablevsKimi K2.5medium Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium Kimi K2.5mediumvsQwen3.7 Plusnone Mercury 2mediumvsQwen3.7 Plusnone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsRing-2.6-1Tnone Gemini 3.1 Flash LitenonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.5none Gemini 2.5 FlashnonevsMercury 2medium Gemini 3.1 Flash LiteminimalvsMercury 2medium