AI BENCHY Compare

MoonshotAI: Kimi K2.6 vs Qwen: Qwen3.5-9B

Summary

Kimi K2.6 vs Qwen3.5-9B benchmark comparison: Kimi K2.6 leads on average score with 5.5 vs 4.6. Qwen3.5-9B has the lower benchmark cost at $0.006 vs $0.079. Qwen3.5-9B is faster at 1.89s vs 13.27s, with pass rates of 36.5% vs 20.6%.

Recommended model: Qwen3.5-9B - It offers the best overall trade-off: a competitive score (4.6), lower cost than Kimi K2.6, and balanced response time.

Last updated at: 2026-06-10

Metric	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20 Free Available	Qwen3.5-9B Qwen3.5-9B none Release: 2026-03-02

Metric	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20 Free Available	Qwen3.5-9B Qwen3.5-9B none Release: 2026-03-02
Score	5.5	4.6
Rank	#125	#155
Reliability	10.0	10.0
Consistency	9.2	9.7
Tests Correct
Attempt pass rate	36.5%	20.6%
Flaky tests	2	1
Total Runs	63	63
Cost per result	1.267	0.123
Total Cost	$0.079	$0.006
Input Price	$0.680 / 1M	$0.100 / 1M
Output Price	$3.410 / 1M	$0.150 / 1M
Total Input Tokens	32,916	48,041
Output Tokens	16,410	3,952
Reasoning Tokens	0	0
Response Time (avg)	13.27s	1.89s
Response Time (max)	238.89s	6.03s
Response Time (total)	278.57s	39.68s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#125 MoonshotAI: Kimi K2.6

none

Cost: $0.020
Time: 127.4s
Tokens: 4,429 tok

#155 Qwen3.5-9B

none

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	4.6	10.0	25.0%	0		1.39s	618	471	0
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	696	582	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	5.5	9.8	33.3%	0		82.57s	5,986	14,754	0
Qwen3.5-9B	3.9	7.8	11.1%	1		5.60s	7,913	1,042	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	3.0	10.0	0.0%	0		3.38s	11,269	290	0
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	20,397	1,255	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		1.32s	7,014	201	0
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	7,788	249	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	5.3	7.2	44.4%	1		1.48s	732	42	0
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	789	24	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	5.4	3.5	33.3%	1		1.55s	477	138	0
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	522	99	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	6.5	10.0	50.0%	0		1.64s	669	72	0
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	711	75	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	3.1	9.9	0.0%	0		1.40s	651	185	0
Qwen3.5-9B	3.2	10.0	0.0%	0		621ms	714	347	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		4.46s	5,286	240	0
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	8,301	273	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.6	3.0	10.0	0.0%	0		1.36s	214	17	0
Qwen3.5-9B	3.0	10.0	0.0%	0		2.32s	210	6	0

Quick Compare

Switch Comparison Pair