AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs OpenAI: GPT-5.4 Mini

Last updated at: 2026-04-04

Metric	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17

Metric	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	GPT-5.4 Mini GPT-5.4 Mini medium Release: 2026-03-17
Score	7.2	7.1
Rank	#40	#42
Consistency	7.2	7.2
Tests Correct
Attempt pass rate	72.6%	68.6%
Flaky tests	6	6
Total Runs	51	51
Cost per result	2.232	3.610
Total Cost	$0.201	$0.289
Input Price	$0.383 / 1M	$0.750 / 1M
Output Price	$1.720 / 1M	$4.500 / 1M
Output Tokens	40,907	1,708
Reasoning Tokens	75,121	58,019
Response Time (avg)	64.59s	15.66s
Response Time (max)	137.29s	102.91s
Response Time (total)	645.93s	266.14s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
GPT-5.4 Mini	8.6	7.9	91.7%	1		4.05s	296	2,876

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
GPT-5.4 Mini	10.0	10.0	100.0%	0		17.81s	317	4,317

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
GPT-5.4 Mini	10.0	10.0	100.0%	0		2.43s	234	650

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
GPT-5.4 Mini	4.1	4.4	44.5%	2		65.31s	60	43,286

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
GPT-5.4 Mini	4.5	10.0	0.0%	0		3.72s	150	510

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
GPT-5.4 Mini	7.4	6.5	66.7%	1		2.50s	129	1,337

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403
GPT-5.4 Mini	6.8	7.9	55.6%	1		4.33s	271	2,449

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
GPT-5.4 Mini	4.7	1.6	66.7%	1		9.62s	251	2,594

Quick Compare

Switch Comparison Pair

Claude Sonnet 4.6nonevsKimi K2.5medium Claude Sonnet 4.6nonevsGPT-5.4 Minimedium GPT-5.4 MinimediumvsQwen3.5 Plus 2026-02-15none Kimi K2.5mediumvsGPT-5.3 Chatnone Gemma 4 31BnonevsGPT-5.4 Minimedium GPT-5.4 MinimediumvsGLM 5none Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Gemma 4 31BnonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Kimi K2.5mediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewnonevsKimi K2.5medium GPT-5.4 MinimediumvsMiMo-V2-Omninone