AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs OpenAI: GPT-5.4 Mini

Last updated at: 2026-05-19

Metric	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17

Metric	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17
Score	6.8	7.2
Rank	#76	#67
Reliability	10.0	10.0
Consistency	7.0	7.9
Tests Correct
Attempt pass rate	68.4%	68.4%
Flaky tests	7	5
Total Runs	57	57
Cost per result	2.616	3.443
Total Cost	$0.236	$0.345
Input Price	$0.400 / 1M	$0.750 / 1M
Output Price	$1.900 / 1M	$4.500 / 1M
Output Tokens	42,188	2,163
Reasoning Tokens	92,514	69,741
Response Time (avg)	73.39s	16.00s
Response Time (max)	150.77s	102.91s
Response Time (total)	880.65s	303.99s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	4.7	1.6	66.7%	1		150.77s	1,269	9,749
GPT-5.4 Mini	10.0	10.0	100.0%	0		7.76s	423	1,548

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
GPT-5.4 Mini	7.4	6.7	66.7%	1		2.50s	129	1,337

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403
GPT-5.4 Mini	7.8	10.0	66.7%	0		4.33s	271	2,449

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	12	7,644
GPT-5.4 Mini	3.0	10.0	0.0%	0		30.10s	32	10,174

Quick Compare

Switch Comparison Pair

Claude Sonnet 4.6nonevsGPT-5.4 Minimedium Gemini 3.1 Flash LiteminimalvsKimi K2.5medium DeepSeek V4 ProhighvsKimi K2.5medium Ring-2.6-1TnonevsGPT-5.4 Minimedium Gemma 4 31BnoneFree AvailablevsKimi K2.5medium GPT-5.4 MinimediumvsQwen3.6 Max Previewnone Kimi K2.5mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsKimi K2.5medium Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Gemma 4 31BnoneFree AvailablevsGPT-5.4 Minimedium DeepSeek V4 ProhighvsGPT-5.4 Minimedium Kimi K2.5mediumvsGLM 5none