AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs MoonshotAI: Kimi K2.6

Summary

Kimi K2.6 leads on average score with 5.8 vs 5.3. DeepSeek V3.2 has the lower benchmark cost at $0.020 vs $0.097. Kimi K2.6 is faster at 13.27s vs 13.83s, with pass rates of 39.7% vs 36.5%.

Recommended modelKimi K2.6It has the strongest score in this comparison (5.8) and the best overall balance of cost and response time across all 2 models.

Last updated at: 2026-07-16

Metric	DeepSeek V3.2 DeepSeek V3.2 none Release: 2025-12-01	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20 Free Available

Metric	DeepSeek V3.2 DeepSeek V3.2 none Release: 2025-12-01	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20 Free Available
Score	5.3	5.8
Rank	#157	#139
Reliability	10.0	10.0
Consistency	7.6	9.2
Tests Correct
Attempt pass rate	39.7%	36.5%
Flaky tests	6	2
Total Runs	63	63
Cost per result	0.306	1.267
Total Cost	$0.020	$0.097
Input Price	$0.269 / 1M	$0.950 / 1M
Output Price	$0.400 / 1M	$4.000 / 1M
Total Input Tokens	55,997	32,916
Output Tokens	11,165	16,410
Reasoning Tokens	0	0
Response Time (avg)	13.83s	13.27s
Response Time (max)	115.89s	238.89s
Response Time (total)	290.43s	278.57s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#157 DeepSeek V3.2

none

Cost: $0.002
Time: 7.0s
Tokens: 1,046 tok

#139 MoonshotAI: Kimi K2.6

none

Cost: $0.020
Time: 127.4s
Tokens: 4,429 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V3.2	3.2	8.0	8.3%	1		9.35s	494	1,073	0
Kimi K2.6	4.6	10.0	25.0%	0		1.39s	618	471	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V3.2	3.1	6.9	11.1%	1		14.54s	7,279	4,528	0
Kimi K2.6	5.5	9.8	33.3%	0		82.57s	5,986	14,754	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V3.2	6.5	10.0	0.0%	0		115.89s	29,843	2,887	0
Kimi K2.6	3.0	10.0	0.0%	0		3.38s	11,269	290	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	7,890	1,710	0
Kimi K2.6	10.0	10.0	100.0%	0		1.32s	7,014	201	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V3.2	2.9	7.2	11.1%	1		4.17s	624	21	0
Kimi K2.6	5.3	7.2	44.4%	1		1.48s	732	42	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V3.2	4.7	1.6	66.7%	1		9.32s	314	43	0
Kimi K2.6	5.4	3.5	33.3%	1		1.55s	477	138	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	627	66	0
Kimi K2.6	6.5	10.0	50.0%	0		1.64s	669	72	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V3.2	7.6	7.2	77.8%	1		6.91s	424	298	0
Kimi K2.6	3.1	9.9	0.0%	0		1.40s	651	185	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	8,319	522	0
Kimi K2.6	10.0	10.0	100.0%	0		4.46s	5,286	240	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
DeepSeek V3.2	3.0	10.0	0.0%	0		17.23s	183	17	0
Kimi K2.6	3.0	10.0	0.0%	0		1.36s	214	17	0

Quick Compare

Switch Comparison Pair