AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs Qwen: Qwen3.5-35B-A3B

Last updated at: 2026-05-29

Metric	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Release: 2026-02-24

Metric	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	Qwen3.5-35B-A3B Qwen3.5-35B-A3B none Release: 2026-02-24
Score	6.7	5.8
Rank	#85	#110
Reliability	10.0	10.0
Consistency	6.8	8.9
Tests Correct
Attempt pass rate	66.7%	45.0%
Flaky tests	8	3
Total Runs	60	60
Cost per result	3.486	0.224
Total Cost	$0.314	$0.016
Input Price	$0.400 / 1M	$0.139 / 1M
Output Price	$1.900 / 1M	$1.000 / 1M
Output Tokens	48,374	4,334
Reasoning Tokens	128,473	0
Response Time (avg)	89.02s	3.50s
Response Time (max)	281.00s	47.43s
Response Time (total)	1157.32s	70.00s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
Qwen3.5-35B-A3B	3.4	7.9	16.7%	1		1.43s	574	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	4.1	1.9	50.0%	2		215.89s	5,700	45,419
Qwen3.5-35B-A3B	6.8	10.0	50.0%	0		1.72s	562	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		47.43s	1,833	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		1.16s	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
Qwen3.5-35B-A3B	7.7	10.0	66.7%	0		485ms	15	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
Qwen3.5-35B-A3B	6.5	3.4	66.7%	1		1.19s	114	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
Qwen3.5-35B-A3B	6.3	10.0	50.0%	0		809ms	63	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	8,426	12,692
Qwen3.5-35B-A3B	3.7	7.4	22.2%	1		1.35s	655	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		2.30s	264	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	12	7,644
Qwen3.5-35B-A3B	3.0	10.0	0.0%	0		493ms	11	0

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash LiteminimalvsKimi K2.5medium Gemma 4 31BnoneFree AvailablevsKimi K2.5medium CobuddymediumvsQwen3.5-35B-A3Bnone Owl AlphamediumvsQwen3.5-35B-A3Bnone Gemini 3.1 Flash LitenonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.5none gpt-oss-120bmediumFree AvailablevsQwen3.5-35B-A3Bnone Nemotron 3 SupermediumFree AvailablevsQwen3.5-35B-A3Bnone Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none GPT-5 NanomediumvsQwen3.5-35B-A3Bnone Gemini 2.5 FlashnonevsKimi K2.5medium DeepSeek V4 ProhighvsKimi K2.5medium