AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs OpenAI: GPT-5 Mini

Last updated at: 2026-04-16

Metric	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	GPT-5 Mini GPT-5 Mini medium Release: 2025-08-07

Metric	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	GPT-5 Mini GPT-5 Mini medium Release: 2025-08-07
Score	7.0	7.0
Rank	#45	#44
Consistency	6.8	8.6
Tests Correct
Attempt pass rate	72.2%	61.1%
Flaky tests	7	3
Total Runs	54	54
Cost per result	2.444	1.415
Total Cost	$0.220	$0.128
Input Price	$0.383 / 1M	$0.250 / 1M
Output Price	$1.720 / 1M	$2.000 / 1M
Output Tokens	42,176	6,379
Reasoning Tokens	84,870	53,482
Response Time (avg)	72.43s	23.98s
Response Time (max)	150.77s	88.15s
Response Time (total)	796.70s	431.56s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
GPT-5 Mini	7.1	7.6	66.7%	1		13.86s	1,715	6,378

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	4.7	1.6	66.7%	1		150.77s	1,269	9,749
GPT-5 Mini	10.0	10.0	100.0%	0		23.18s	483	4,160

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
GPT-5 Mini	10.0	10.0	100.0%	0		88.15s	754	11,520

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
GPT-5 Mini	10.0	10.0	100.0%	0		12.58s	453	3,200

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
GPT-5 Mini	3.6	7.2	22.2%	1		44.63s	293	14,016

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
GPT-5 Mini	4.5	10.0	0.0%	0		13.50s	349	1,856

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
GPT-5 Mini	8.0	6.6	83.3%	1		15.66s	318	4,992

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403
GPT-5 Mini	5.6	9.8	33.3%	0		14.09s	1,527	5,760

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
GPT-5 Mini	10.0	10.0	100.0%	0		18.64s	487	1,600

Quick Compare

Switch Comparison Pair

Gemma 4 31BnoneFree AvailablevsKimi K2.5medium Gemma 4 31BnoneFree AvailablevsGPT-5 Minimedium Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none GPT-5 MinimediumvsQwen3.5 Plus 2026-02-15none Kimi K2.5mediumvsGLM 5none GPT-5 MinimediumvsGLM 5none Claude Sonnet 4.6nonevsGPT-5 Minimedium Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsMiMo-V2-Omninone GPT-5 MinimediumvsMiMo-V2-Omninone Kimi K2.5mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsGLM 5V Turbonone