AI BENCHY Compare

MoonshotAI: Kimi K2.6 vs OpenAI: gpt-oss-120b

Last updated at: 2026-05-22

Metric	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20	gpt-oss-120b gpt-oss-120b none Release: 2025-08-05 Free Available

Metric	Kimi K2.6 Kimi K2.6 none Release: 2026-04-20	gpt-oss-120b gpt-oss-120b none Release: 2025-08-05 Free Available
Score	5.6	5.2
Rank	#110	#129
Reliability	8.3	10.0
Consistency	9.2	8.7
Tests Correct
Attempt pass rate	38.3%	36.8%
Flaky tests	2	3
Total Runs	60	57
Cost per result	1.250	0.201
Total Cost	$0.088	$0.011
Input Price	$0.730 / 1M	$0.000 / 1M
Output Price	$3.490 / 1M	$0.000 / 1M
Output Tokens	16,563	51,505
Reasoning Tokens	0	0
Response Time (avg)	13.86s	21.86s
Response Time (max)	238.89s	113.71s
Response Time (total)	277.18s	349.78s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	4.6	10.0	25.0%	0		1.39s	471	0
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	8,676	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	6.8	9.8	50.0%	0		122.77s	14,749	0
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	3.0	10.0	0.0%	0		3.38s	290	0
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		1.32s	201	0
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	5.3	7.2	44.4%	1		1.48s	42	0
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	5.4	3.5	33.3%	1		1.55s	138	0
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	615	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	6.5	10.0	50.0%	0		1.64s	72	0
gpt-oss-120b	9.8	10.0	100.0%	0		5.10s	1,982	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	3.2	9.8	0.0%	0		1.66s	343	0
gpt-oss-120b	4.4	4.5	44.5%	2		9.51s	3,781	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	10.0	10.0	100.0%	0		4.46s	240	0
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Kimi K2.6	3.0	10.0	0.0%	0		1.36s	17	0
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	3,138	0

Quick Compare

Switch Comparison Pair

Kimi K2.6nonevsgpt-oss-120bmediumFree Available CobuddymediumFree AvailablevsKimi K2.6none MiniMax M2.7mediumvsgpt-oss-120bnoneFree Available MiniMax M2.5mediumFree AvailablevsKimi K2.6none gpt-oss-120bnoneFree AvailablevsElephant Alphamedium Mistral Small 4mediumvsgpt-oss-120bnoneFree Available Mistral Small 4mediumvsKimi K2.6none Kimi K2.6nonevsElephant Alphamedium MiniMax M2.5mediumFree Availablevsgpt-oss-120bnoneFree Available Kimi K2.6nonevsOwl Alphamedium Kimi K2.6nonevsNemotron 3 SupermediumFree Available gpt-oss-120bnoneFree AvailablevsQwen3 Coder Nextmedium