AI BENCHY Compare

MoonshotAI: Kimi K2.6 vs OpenAI: GPT-5.4 Nano

Last updated at: 2026-04-30

Metric	Kimi K2.6 Kimi K2.6 medium Release: 2026-04-20	GPT-5.4 Nano GPT-5.4 Nano medium Release: 2026-03-17

Metric	Kimi K2.6 Kimi K2.6 medium Release: 2026-04-20	GPT-5.4 Nano GPT-5.4 Nano medium Release: 2026-03-17
Score	7.7	7.6
Rank	#47	#50
Reliability	N/A	N/A
Consistency	8.3	9.0
Tests Correct
Attempt pass rate	74.1%	68.5%
Flaky tests	4	2
Total Runs	54	54
Cost per result	6.563	0.747
Total Cost	$0.722	$0.083
Input Price	$0.740 / 1M	$0.200 / 1M
Output Price	$3.490 / 1M	$1.250 / 1M
Output Tokens	80,759	2,946
Reasoning Tokens	179,814	58,132
Response Time (avg)	45.20s	11.21s
Response Time (max)	215.85s	94.06s
Response Time (total)	768.37s	201.80s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	7.0	8.0	66.7%	1		11.59s	7,115	8,934
GPT-5.4 Nano	8.3	10.0	75.0%	0		4.52s	683	2,254

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		106.96s	3,236	18,817
GPT-5.4 Nano	10.0	10.0	100.0%	0		13.41s	472	3,616

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		40.96s	711	13,876
GPT-5.4 Nano	9.8	10.0	100.0%	0		24.13s	349	5,719

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		20.38s	316	11,305
GPT-5.4 Nano	10.0	10.0	100.0%	0		2.54s	234	516

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	5.3	7.2	44.4%	1		202.38s	47,035	98,262
GPT-5.4 Nano	5.9	7.2	55.6%	1		38.18s	60	43,325

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		17.83s	3,981	4,472
GPT-5.4 Nano	4.5	10.0	0.0%	0		4.15s	179	443

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		12.53s	3,977	5,269
GPT-5.4 Nano	9.8	10.0	100.0%	0		1.88s	95	521

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	5.0	5.2	44.5%	2		25.59s	14,140	17,868
GPT-5.4 Nano	4.0	7.1	22.2%	1		3.65s	640	1,356

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		8.92s	248	1,011
GPT-5.4 Nano	10.0	10.0	100.0%	0		7.71s	234	382

Quick Compare

Switch Comparison Pair

GPT-5.4 NanomediumvsQwen3.6 Max Previewnone DeepSeek V4 FlashhighvsKimi K2.6medium Kimi K2.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium Gemini 3.1 Flash Lite PreviewnonevsKimi K2.6medium Kimi K2.6mediumvsQwen3.6 Max Previewnone Kimi K2.6mediumvsGPT-5.2 Chatnone DeepSeek V4 FlashhighvsGPT-5.4 Nanomedium Claude Sonnet 4.6nonevsKimi K2.6medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4 Nanomedium Gemini 3.1 Flash Lite PreviewlowvsKimi K2.6medium Gemini 3 Flash PreviewnonevsKimi K2.6medium