AI BENCHY Compare

Compared models

Last updated at: 2026-04-07

Metric	GLM 5 GLM 5 medium Release: 2026-02-12	GLM 5.1 GLM 5.1 medium Release: 2026-04-07	GLM 5 GLM 5 none Release: 2026-02-12	GLM 5.1 GLM 5.1 none Release: 2026-04-07

Metric	GLM 5 GLM 5 medium Release: 2026-02-12	GLM 5.1 GLM 5.1 medium Release: 2026-04-07	GLM 5 GLM 5 none Release: 2026-02-12	GLM 5.1 GLM 5.1 none Release: 2026-04-07
Score	8.3	8.0	6.7	5.6
Rank	#15	#23	#50	#67
Consistency	8.1	9.0	10.0	8.2
Tests Correct
Attempt pass rate	84.3%	76.5%	52.9%	39.2%
Flaky tests	4	2	0	4
Total Runs	51	51	51	51
Cost per result	0.896	1.270	0.201	1.000
Total Cost	$0.108	$0.153	$0.019	$0.050
Input Price	$0.720 / 1M	$1.000 / 1M	$0.720 / 1M	$1.000 / 1M
Output Price	$2.300 / 1M	$3.200 / 1M	$2.300 / 1M	$3.200 / 1M
Output Tokens	19,833	6,666	1,551	3,219
Reasoning Tokens	38,523	35,313	0	0
Response Time (avg)	17.15s	18.23s	3.77s	4.01s
Response Time (max)	28.96s	43.11s	11.07s	32.57s
Response Time (total)	154.32s	291.73s	37.66s	68.23s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0		23.66s	480	7,056
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122
GLM 5	4.8	10.0	25.0%	0		2.37s	275	0
GLM 5.1	4.0	6.3	25.0%	2		2.11s	305	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206
GLM 5	3.0	10.0	0.0%	0		4.98s	406	0
GLM 5.1	2.8	2.1	33.3%	1		32.57s	2,129	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552
GLM 5	10.0	10.0	100.0%	0		5.78s	203	0
GLM 5.1	10.0	10.0	100.0%	0		1.08s	204	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314
GLM 5	3.0	10.0	0.0%	0		2.24s	19	0
GLM 5.1	2.9	7.2	11.1%	1		1.99s	24	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875
GLM 5	10.0	10.0	100.0%	0		3.27s	103	0
GLM 5.1	5.0	10.0	0.0%	0		790ms	39	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617
GLM 5	10.0	10.0	100.0%	0		1.48s	61	0
GLM 5.1	8.3	10.0	50.0%	0		1.58s	66	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627
GLM 5	7.7	10.0	66.7%	0		2.05s	264	0
GLM 5.1	5.7	10.0	33.3%	0		1.48s	152	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0
GLM 5	10.0	10.0	100.0%	0		11.07s	220	0
GLM 5.1	10.0	10.0	100.0%	0		10.68s	300	0

Quick Compare

Switch Comparison Pair

Gemini 3 Flash PreviewnonevsGLM 5.1medium Gemini 3.1 Flash Lite PreviewlowvsGLM 5.1medium Mistral Small 4mediumvsGLM 5.1none GPT-5 MinimediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium Nemotron 3 SupermediumFree AvailablevsGLM 5none GPT-5.2 ChatnonevsGLM 5.1medium Grok 4.1 FastmediumvsGLM 5none MiniMax M2.5mediumFree AvailablevsGLM 5.1none Hunter AlphamediumvsGLM 5none Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Gemini 3 Flash PreviewnonevsGLM 5medium