AI BENCHY Compare

MoonshotAI: Kimi K2.6 vs Qwen: Qwen3 Coder Next

Last updated at: 2026-06-04

Metric	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20 Free Available	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03

Metric	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20 Free Available	Qwen3 Coder Next Qwen3 Coder Next medium Release: 2026-02-03
Score	5.5	4.6
Rank	#124	#150
Reliability	10.0	10.0
Consistency	9.2	8.9
Tests Correct
Attempt pass rate	36.5%	28.6%
Flaky tests	2	3
Total Runs	63	63
Cost per result	1.267	0.201
Total Cost	$0.079	$0.008
Input Price	$0.684 / 1M	$0.110 / 1M
Output Price	$3.420 / 1M	$0.800 / 1M
Total Input Tokens	32,916	47,250
Output Tokens	16,410	3,319
Reasoning Tokens	0	0
Response Time (avg)	13.27s	8.58s
Response Time (max)	238.89s	81.80s
Response Time (total)	278.57s	128.68s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	4.6	10.0	25.0%	0		1.39s	618	471	0
Qwen3 Coder Next	3.5	8.1	16.7%	1		8.64s	645	1,252	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	5.5	9.8	33.3%	0		82.57s	5,986	14,754	0
Qwen3 Coder Next	3.7	7.2	22.2%	1		924ms	7,185	336	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	3.0	10.0	0.0%	0		3.38s	11,269	290	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		4.28s	20,469	317	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		1.32s	7,014	201	0
Qwen3 Coder Next	6.5	10.0	50.0%	0		81.80s	7,758	246	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	5.3	7.2	44.4%	1		1.48s	732	42	0
Qwen3 Coder Next	5.3	10.0	33.3%	0		638ms	753	25	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	5.4	3.5	33.3%	1		1.55s	477	138	0
Qwen3 Coder Next	6.3	3.4	66.7%	1		1.39s	498	142	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	6.5	10.0	50.0%	0		1.64s	669	72	0
Qwen3 Coder Next	6.3	10.0	50.0%	0		7.49s	684	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	3.1	9.9	0.0%	0		1.40s	651	185	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		1.25s	678	671	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		4.46s	5,286	240	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.64s	8,364	255	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	3.0	10.0	0.0%	0		1.36s	214	17	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		399ms	216	12	0

Quick Compare

Switch Comparison Pair

Trinity Large PreviewnonevsQwen3 Coder Nextmedium GPT-5.4 NanononevsQwen3 Coder Nextmedium Qwen3 Coder NextmediumvsMiMo-V2-Flashnone Mercury 2nonevsQwen3 Coder Nextmedium GPT-4o-mininonevsQwen3 Coder Nextmedium MiniMax M2.5mediumvsKimi K2.6noneFree Available CobuddymediumvsKimi K2.6noneFree Available MiniMax M2.7mediumvsKimi K2.6noneFree Available Mistral Small 4mediumvsKimi K2.6noneFree Available GPT-5.4 MininonevsQwen3 Coder Nextmedium Qwen3 Coder NextmediumvsMiMo-V2.5none Mistral Small 4nonevsQwen3 Coder Nextmedium