Claude Sonnet 4.6 vs GLM 5.1 (medium)

Recommended model Claude Sonnet 4.6

It has the best score here (7.3), while responding about 5.8x faster than GLM 5.1 (medium).

Detailed comparison

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	GLM 5.1 GLM 5.1 medium Release: 2026-04-07

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 none Release: 2026-02-17	GLM 5.1 GLM 5.1 medium Release: 2026-04-07
Score	7.3	7.1
Rank	#71	#82
Reliability	10.0	8.3
Consistency	9.7	8.4
Tests Correct
Attempt pass rate	57.6%	69.7%
Flaky tests	1	4
Total Runs	66	66
Cost per result	5.502	4.202
Total Cost	$0.661	$0.535
Input Price	$3.000 / 1M	$0.966 / 1M
Output Price	$15.000 / 1M	$3.036 / 1M
Total Input Tokens	123,264	82,623
Output Tokens	19,362	16,089
Reasoning Tokens	0	136,463
Response Time (avg)	8.12s	46.77s
Response Time (max)	51.18s	308.75s
Response Time (total)	121.78s	982.16s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

none

medium

Invalid SVG

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	636	1,214	0
GLM 5.1	10.0	10.0	100.0%	0		8.31s	555	401	5,122

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	5.5	10.0	33.3%	0		5.19s	8,522	2,127	0
GLM 5.1	4.6	3.7	44.5%	2		109.63s	5,702	4,871	37,826

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	9.8	10.0	100.0%	0		37.51s	91,402	13,663	0
GLM 5.1	9.8	10.0	100.0%	0		175.93s	66,926	4,761	65,248

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	8,574	252	0
GLM 5.1	10.0	10.0	100.0%	0		9.33s	7,107	991	4,552

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	759	413	0
GLM 5.1	5.3	10.0	33.3%	0		29.77s	489	969	11,314

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	513	192	0
GLM 5.1	10.0	10.0	100.0%	0		20.95s	477	2,875	2,875

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	690	90	0
GLM 5.1	6.4	5.8	66.7%	1		7.47s	634	204	1,617

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.53s	663	533	0
GLM 5.1	8.2	7.2	88.9%	1		31.64s	609	935	5,730

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	11,301	447	0
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	3.0	10.0	0.0%	0		4.67s	204	431	0
GLM 5.1	3.0	10.0	0.0%	0		29.40s	124	82	2,179

Switch Comparison Pair