AI BENCHY Compare

Inception: Mercury 2 vs MoonshotAI: Kimi K2.6

Last updated at: 2026-04-20

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20

Metric	Mercury 2 Mercury 2 medium Release: 2026-02-24	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20
Score	6.5	5.8
Rank	#54	#69
Consistency	8.6	9.1
Tests Correct
Attempt pass rate	53.7%	42.6%
Flaky tests	3	2
Total Runs	54	54
Cost per result	0.580	0.543
Total Cost	$0.047	$0.038
Input Price	$0.250 / 1M	$0.950 / 1M
Output Price	$0.750 / 1M	$4.000 / 1M
Output Tokens	3,972	2,973
Reasoning Tokens	48,333	0
Response Time (avg)	2.21s	2.05s
Response Time (max)	14.63s	6.65s
Response Time (total)	37.51s	36.93s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
Kimi K2.6	4.6	10.0	25.0%	0		1.39s	471	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.53s	249	2,213
Kimi K2.6	10.0	10.0	100.0%	0		6.65s	1,176	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
Kimi K2.6	3.0	10.0	0.0%	0		3.38s	290	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
Kimi K2.6	10.0	10.0	100.0%	0		1.32s	201	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
Kimi K2.6	5.3	7.2	44.4%	1		1.48s	42	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
Kimi K2.6	5.4	3.5	33.3%	1		1.55s	138	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
Kimi K2.6	6.5	10.0	50.0%	0		1.64s	72	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	3.9	7.5	22.2%	1		934ms	354	2,758
Kimi K2.6	3.4	9.7	0.0%	0		1.66s	343	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
Kimi K2.6	10.0	10.0	100.0%	0		4.46s	240	0

Quick Compare

Switch Comparison Pair

Kimi K2.6nonevsgpt-oss-120bmediumFree Available Mercury 2mediumvsMiMo-V2-Omninone Mercury 2mediumvsGLM 5none MiniMax M2.5mediumFree AvailablevsKimi K2.6none Mistral Small 4mediumvsKimi K2.6none Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Mercury 2mediumvsGLM 5V Turbonone Mercury 2mediumvsQwen3.5-Flashnone Gemma 4 26B A4BnoneFree AvailablevsMercury 2medium Seed-2.0-LitenonevsMercury 2medium Gemini 2.5 FlashnonevsMercury 2medium Mercury 2mediumvsQwen3.5-35B-A3Bnone