Kimi K2.7 Code (medium) vs Qwen3.7 Max

Recommended model Qwen3.7 Max

Its score stays close to the best score here (7.4 vs 7.5), while costing about 3.5x less than Kimi K2.7 Code (medium).

Detailed comparison

Metric	Kimi K2.7 Code Kimi K2.7 Code medium Release: 2026-06-12	Qwen3.7 Max Qwen3.7 Max none Release: 2026-05-22

Metric	Kimi K2.7 Code Kimi K2.7 Code medium Release: 2026-06-12	Qwen3.7 Max Qwen3.7 Max none Release: 2026-05-22
Score	7.5	7.4
Rank	#60	#67
Reliability	10.0	9.9
Consistency	8.3	10.0
Tests Correct
Attempt pass rate	65.2%	68.2%
Flaky tests	4	0
Total Runs	66	66
Cost per result	6.457	1.582
Total Cost	$0.692	$0.197
Input Price	$0.780 / 1M	$1.475 / 1M
Output Price	$3.500 / 1M	$4.425 / 1M
Total Input Tokens	72,073	95,983
Output Tokens	83,714	12,446
Reasoning Tokens	178,793	0
Response Time (avg)	84.25s	4.52s
Response Time (max)	365.80s	72.30s
Response Time (total)	1769.22s	99.52s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

medium

none

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.7 Code	7.3	5.8	83.3%	2		11.56s	618	3,048	5,041
Qwen3.7 Max	6.5	10.0	50.0%	0		1.08s	696	242	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.7 Code	7.8	9.3	66.7%	0		146.73s	4,650	1,864	25,635
Qwen3.7 Max	5.5	10.0	33.3%	0		1.35s	7,911	582	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.7 Code	7.3	5.8	83.3%	1		66.03s	57,353	3,642	21,308
Qwen3.7 Max	6.5	10.0	50.0%	0		37.23s	68,425	10,623	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.7 Code	10.0	10.0	100.0%	0		12.27s	7,014	248	2,569
Qwen3.7 Max	10.0	10.0	100.0%	0		1.35s	7,794	243	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.7 Code	5.5	9.3	33.3%	0		213.29s	431	55,572	63,639
Qwen3.7 Max	7.7	10.0	66.7%	0		975ms	789	15	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.7 Code	10.0	10.0	100.0%	0		10.78s	477	1,024	1,071
Qwen3.7 Max	10.0	10.0	100.0%	0		1.04s	522	120	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.7 Code	9.9	10.0	100.0%	0		5.39s	669	725	1,232
Qwen3.7 Max	10.0	10.0	100.0%	0		943ms	711	72	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.7 Code	5.9	7.7	44.4%	1		41.00s	651	15,438	17,368
Qwen3.7 Max	10.0	10.0	100.0%	0		1.13s	714	314	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.7 Code	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.7 Max	10.0	10.0	100.0%	0		3.92s	8,211	222	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Kimi K2.7 Code	3.0	10.0	0.0%	0		341.76s	210	2,153	40,930
Qwen3.7 Max	3.0	10.0	0.0%	0		856ms	210	13	0

Switch Comparison Pair