AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs Qwen: Qwen3.5-35B-A3B

Summary

Kimi K2.5 vs Qwen3.5-35B-A3B benchmark comparison: Qwen3.5-35B-A3B leads on average score with 6.3 vs 5.5. Kimi K2.5 has the lower benchmark cost at $0.027 vs $0.401. Kimi K2.5 is faster at 13.18s vs 72.57s, with pass rates of 34.9% vs 69.8%.

Recommended model: Kimi K2.5 - Its score stays close to the best score here (5.5 vs 6.3), while costing about 14.8x less than Qwen3.5-35B-A3B.

Last updated at: 2026-06-18

Metric	Kimi K2.5 Kimi K2.5 none Release: 2026-01-27	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Release: 2026-02-24

Metric	Kimi K2.5 Kimi K2.5 none Release: 2026-01-27	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Release: 2026-02-24
Score	5.5	6.3
Rank	#118	#89
Reliability	10.0	10.0
Consistency	8.9	7.5
Tests Correct
Attempt pass rate	34.9%	69.8%
Flaky tests	3	6
Total Runs	63	63
Cost per result	0.442	5.162
Total Cost	$0.027	$0.401
Input Price	$0.375 / 1M	$0.140 / 1M
Output Price	$2.025 / 1M	$1.000 / 1M
Total Input Tokens	36,034	42,196
Output Tokens	6,657	40,630
Reasoning Tokens	0	353,577
Response Time (avg)	13.18s	72.57s
Response Time (max)	42.13s	409.98s
Response Time (total)	184.47s	1524.04s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#118 MoonshotAI: Kimi K2.5

none

Cost: $0.015
Time: 89.1s
Tokens: 5,421 tok

#89 Qwen3.5-35B-A3B

medium

Cost: $0.009
Time: 71.4s
Tokens: 8,631 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.5	3.6	8.4	8.3%	1		6.24s	652	373	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.13s	672	798	42,652

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.5	5.5	10.0	33.3%	0		24.56s	7,311	4,708	0
Qwen3.5-35B-A3B	5.9	9.3	33.3%	0		206.65s	4,106	23,844	111,462

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.5	2.8	2.1	33.3%	1		19.16s	12,264	748	0
Qwen3.5-35B-A3B	4.7	1.6	66.7%	1		75.34s	20,992	775	12,485

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.5	7.3	5.8	83.3%	1		42.13s	7,180	187	0
Qwen3.5-35B-A3B	7.3	5.9	83.3%	1		59.33s	6,061	235	19,493

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.5	5.3	10.0	33.3%	0		4.38s	753	29	0
Qwen3.5-35B-A3B	4.1	4.4	44.5%	2		88.34s	500	41	46,368

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		4.00s	483	76	0
Qwen3.5-35B-A3B	2.8	1.6	33.3%	1		30.30s	172	20	3,753

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.5	6.5	10.0	50.0%	0		2.67s	677	60	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	699	97	17,361

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.5	3.0	10.0	0.0%	0		4.04s	667	236	0
Qwen3.5-35B-A3B	8.2	7.2	88.9%	1		33.13s	597	3,592	26,585

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		13.99s	5,835	220	0
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	8,193	309	1,365

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.5	3.0	10.0	0.0%	0		3.90s	212	20	0
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		177.35s	204	10,919	72,053

Quick Compare

Switch Comparison Pair