Compared models

Recommended model GLM 5 (medium)

It has the best score here (7.7), while costing about 1.8x less than the other models in this comparison.

Detailed comparison

Metric	GLM 5 GLM 5 medium Release: 2026-02-12	GLM 5.1 GLM 5.1 medium Release: 2026-04-07	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium Release: 2026-04-20 Free Available

Metric	GLM 5 GLM 5 medium Release: 2026-02-12	GLM 5.1 GLM 5.1 medium Release: 2026-04-07	Kimi K2.5 Kimi K2.5 medium Release: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium Release: 2026-04-20 Free Available
Score	7.7	7.1	7.0	4.9
Rank	#49	#82	#85	#190
Reliability	10.0	8.3	10.0	N/A
Consistency	8.1	8.4	7.0	8.6
Tests Correct
Attempt pass rate	78.8%	69.7%	65.2%	40.9%
Flaky tests	4	4	8	0
Total Runs	63	66	66	57
Cost per result	1.668	4.202	4.789	0.000
Total Cost	$0.307	$0.535	$0.600	$0.000
Input Price	$0.950 / 1M	$0.966 / 1M	$0.571 / 1M	$0.000 / 1M
Output Price	$2.551 / 1M	$3.036 / 1M	$2.850 / 1M	$0.000 / 1M
Total Input Tokens	35,224	82,623	118,448	32,639
Output Tokens	21,570	16,089	62,124	1,153
Reasoning Tokens	102,996	136,463	165,243	62,197
Response Time (avg)	33.54s	46.77s	99.00s	15.25s
Response Time (max)	99.85s	308.75s	281.00s	43.55s
Response Time (total)	435.99s	982.16s	1485.04s	182.96s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

medium

medium

Invalid SVG

medium

medium

No showcase result has been generated for this model yet.

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0	23.66s	555	480	7,056
GLM 5.1	10.0	10.0	100.0%	0	8.31s	555	401	5,122
Kimi K2.5	7.3	5.8	83.3%	2	51.38s	634	2,789	8,880
Qwen3.6 Plus Preview	8.3	10.0	75.0%	0	11.69s	501	61	5,812

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0	74.30s	7,254	2,997	52,930
GLM 5.1	4.6	3.7	44.5%	2	109.63s	5,702	4,871	37,826
Kimi K2.5	6.1	4.6	66.7%	2	217.49s	6,935	5,705	74,693
Qwen3.6 Plus Preview	9.8	3.3	0.0%	0	0ms	0	0	0

Combined	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GLM 5	5.0	5.0	50.0%	28.96s	12,804	662	3,242
GLM 5.1	9.8	10.0	100.0%	175.93s	66,926	4,761	65,248
Kimi K2.5	6.7	9.1	50.0%	89.19s	95,416	14,448	11,209
Qwen3.6 Plus Preview	5.0	5.0	50.0%	34.95s	14,934	452	13,073

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GLM 5	7.1	5.6	83.3%	1	8.90s	5,508	567	3,734
GLM 5.1	10.0	10.0	100.0%	0	9.33s	7,107	991	4,552
Kimi K2.5	10.0	10.0	100.0%	0	49.78s	7,020	563	7,940
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0	14.95s	7,782	270	10,706

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GLM 5	3.5	4.4	33.3%	2	0ms	260	13,176	14,137
GLM 5.1	5.3	10.0	33.3%	0	29.77s	489	969	11,314
Kimi K2.5	3.5	4.4	33.3%	2	137.29s	485	20,753	30,564
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0	22.08s	665	49	26,895

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GLM 5	6.1	3.1	66.7%	1	14.69s	477	2,020	2,248
GLM 5.1	10.0	10.0	100.0%	0	20.95s	477	2,875	2,875
Kimi K2.5	6.5	3.4	66.7%	1	69.73s	480	3,815	4,262
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0	0ms	0	0	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0	7.25s	636	1,001	2,129
GLM 5.1	6.4	5.8	66.7%	1	7.47s	634	204	1,617
Kimi K2.5	10.0	10.0	100.0%	0	92.47s	675	5,371	6,547
Qwen3.6 Plus Preview	6.5	10.0	50.0%	0	3.40s	381	27	1,383

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	0	11.33s	609	33	4,076
GLM 5.1	8.2	7.2	88.9%	1	31.64s	609	935	5,730
Kimi K2.5	5.3	7.3	44.4%	1	43.23s	659	8,426	12,692
Qwen3.6 Plus Preview	5.3	10.0	33.3%	0	7.52s	183	27	2,998

Tool Calling	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GLM 5	10.0	10.0	100.0%	15.93s	6,935	233	994
GLM 5.1	3.0	10.0	0.0%	0ms	0	0	0
Kimi K2.5	10.0	10.0	100.0%	31.74s	5,933	242	812
Qwen3.6 Plus Preview	10.0	10.0	100.0%	5.87s	8,193	267	1,330

Trivia	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
GLM 5	3.0	10.0	0.0%	67.37s	186	401	12,450
GLM 5.1	3.0	10.0	0.0%	29.40s	124	82	2,179
Kimi K2.5	3.0	10.0	0.0%	83.95s	211	12	7,644
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0ms	0	0	0

Switch Comparison Pair