AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs Qwen: Qwen3.5 Plus 2026-02-15

Last updated at: 2026-05-29

Metric	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none Release: 2026-02-15

Metric	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none Release: 2026-02-15
Score	6.7	6.4
Rank	#85	#94
Reliability	10.0	10.0
Consistency	6.8	9.3
Tests Correct
Attempt pass rate	66.7%	48.3%
Flaky tests	8	2
Total Runs	60	60
Cost per result	3.486	0.195
Total Cost	$0.314	$0.018
Input Price	$0.400 / 1M	$0.260 / 1M
Output Price	$1.900 / 1M	$1.560 / 1M
Output Tokens	48,374	2,474
Reasoning Tokens	128,473	0
Response Time (avg)	89.02s	2.40s
Response Time (max)	281.00s	6.65s
Response Time (total)	1157.32s	33.56s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
Qwen3.5 Plus 2026-02-15	4.8	10.0	25.0%	0		1.91s	517	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	4.1	1.9	50.0%	2		215.89s	5,700	45,419
Qwen3.5 Plus 2026-02-15	4.9	6.9	16.7%	1		2.54s	467	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		6.65s	314	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.89s	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
Qwen3.5 Plus 2026-02-15	5.3	10.0	33.3%	0		1.17s	17	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
Qwen3.5 Plus 2026-02-15	4.4	3.0	33.3%	1		2.26s	117	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.67s	72	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	8,426	12,692
Qwen3.5 Plus 2026-02-15	7.7	10.0	66.7%	0		2.71s	494	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		3.33s	222	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	12	7,644
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		1.11s	11	0

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash LiteminimalvsKimi K2.5medium Gemma 4 31BnoneFree AvailablevsKimi K2.5medium Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash LitenonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.5none GPT-5 NanomediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash LiteminimalvsQwen3.5 Plus 2026-02-15none Gemini 2.5 FlashnonevsKimi K2.5medium DeepSeek V4 ProhighvsKimi K2.5medium Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Kimi K2.5mediumvsQwen3.6 Max Previewnone