AI BENCHY Compare

Compared models

Last updated at: 2026-04-07

Metric	GLM 5 GLM 5 medium Release: 2026-02-12	GLM 5.1 GLM 5.1 medium Release: 2026-04-07	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium Release: 2026-03-30

Metric	GLM 5 GLM 5 medium Release: 2026-02-12	GLM 5.1 GLM 5.1 medium Release: 2026-04-07	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium Release: 2026-03-30
Score	8.3	8.0	7.2	8.5
Rank	#15	#23	#41	#7
Consistency	8.1	9.0	7.2	10.0
Tests Correct
Attempt pass rate	84.3%	76.5%	72.6%	76.5%
Flaky tests	4	2	6	0
Total Runs	51	51	51	49
Cost per result	0.896	1.270	2.232	0.000
Total Cost	$0.108	$0.153	$0.201	$0.000
Input Price	$0.720 / 1M	$1.000 / 1M	$0.383 / 1M	$0.000 / 1M
Output Price	$2.300 / 1M	$3.200 / 1M	$1.720 / 1M	$0.000 / 1M
Output Tokens	19,833	6,666	40,907	1,756
Reasoning Tokens	38,523	35,313	75,121	77,213
Response Time (avg)	17.15s	18.23s	64.59s	13.94s
Response Time (max)	28.96s	43.11s	137.29s	43.55s
Response Time (total)	154.32s	291.73s	645.93s	237.01s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0		23.66s	480	7,056
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		9.90s	207	7,557

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		34.95s	452	13,073

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		14.95s	270	10,706

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0		22.08s	49	26,895

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
Qwen3.6 Plus Preview	5.1	10.0	0.0%	0		27.05s	111	5,232

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		7.54s	102	5,552

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		6.11s	298	6,868

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		5.87s	267	1,330

Quick Compare

Switch Comparison Pair

Gemini 3 Flash PreviewnonevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewlowvsGLM 5.1medium Claude Sonnet 4.6nonevsKimi K2.5medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium GPT-5.2 ChatnonevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Gemini 3 Flash PreviewnonevsGLM 5medium Gemini 3 Flash PreviewlowvsQwen3.6 Plus Previewmedium Kimi K2.5mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none GPT-5.3 ChatnonevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plus Previewmedium