AI BENCHY Compare

MoonshotAI: Kimi K2.6 vs xAI: Grok 4.20

Last updated at: 2026-05-10

Metric	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20	Grok 4.20 Grok 4.20 none Release: 2026-03-31

Metric	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20	Grok 4.20 Grok 4.20 none Release: 2026-03-31
Score	5.7	5.4
Rank	#102	#115
Reliability	10.0	N/A
Consistency	9.2	9.5
Tests Correct
Attempt pass rate	40.4%	35.2%
Flaky tests	2	1
Total Runs	57	54
Cost per result	0.546	1.574
Total Cost	$0.039	$0.095
Input Price	$0.750 / 1M	$1.250 / 1M
Output Price	$3.500 / 1M	$2.500 / 1M
Output Tokens	2,990	1,967
Reasoning Tokens	0	0
Response Time (avg)	2.02s	1.11s
Response Time (max)	6.65s	6.04s
Response Time (total)	38.29s	20.02s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	4.6	10.0	25.0%	0		1.39s	471	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		6.65s	1,176	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	312	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	3.0	10.0	0.0%	0		3.38s	290	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		1.32s	201	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	5.3	7.2	44.4%	1		1.48s	42	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	5.4	3.5	33.3%	1		1.55s	138	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	6.5	10.0	50.0%	0		1.64s	72	0
Grok 4.20	6.3	10.0	50.0%	0		455ms	60	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	3.2	9.8	0.0%	0		1.66s	343	0
Grok 4.20	5.3	7.2	44.4%	1		487ms	242	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		4.46s	240	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	3.0	10.0	0.0%	0		1.36s	17	0
Grok 4.20	-	-	-	-	-	-	-	-

Quick Compare

Switch Comparison Pair

Kimi K2.6nonevsgpt-oss-120bmediumFree Available Elephant AlphamediumvsGrok 4.20none CobuddymediumFree AvailablevsKimi K2.6none Mistral Small 4mediumvsGrok 4.20none MiniMax M2.5mediumFree AvailablevsGrok 4.20none MiniMax M2.5mediumFree AvailablevsKimi K2.6none Mistral Small 4mediumvsKimi K2.6none Kimi K2.6nonevsElephant Alphamedium Kimi K2.6nonevsOwl Alphamedium MiniMax M2.7mediumvsGrok 4.20none gpt-oss-120bmediumFree AvailablevsGrok 4.20none Kimi K2.6nonevsNemotron 3 SupermediumFree Available