AI BENCHY Compare

Trinity Large Preview vs Z.ai: GLM 5 Turbo

Last updated at: 2026-06-03

Metric	Trinity Large Preview Trinity Large Preview none Release: 2026-01-27	GLM 5 Turbo GLM 5 Turbo none Release: 2026-03-15

Metric	Trinity Large Preview Trinity Large Preview none Release: 2026-01-27	GLM 5 Turbo GLM 5 Turbo none Release: 2026-03-15
Score	4.7	5.3
Rank	#148	#132
Reliability	10.0	10.0
Consistency	9.3	9.3
Tests Correct
Attempt pass rate	23.3%	33.3%
Flaky tests	2	2
Total Runs	60	60
Cost per result	0.017	0.602
Total Cost	$0.008	$0.044
Input Price	$0.243 / 1M	$1.200 / 1M
Output Price	$0.243 / 1M	$4.000 / 1M
Total Input Tokens	29,828	29,927
Output Tokens	2,169	1,809
Reasoning Tokens	0	0
Response Time (avg)	2.98s	2.86s
Response Time (max)	14.34s	8.21s
Response Time (total)	56.57s	57.24s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Trinity Large Preview	3.1	10.0	0.0%	0		2.07s	651	550	0
GLM 5 Turbo	3.0	10.0	0.0%	0		2.84s	555	382	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Trinity Large Preview	4.0	6.6	16.7%	1		14.34s	738	397	0
GLM 5 Turbo	4.4	6.7	16.7%	1		2.58s	4,658	523	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Trinity Large Preview	3.0	10.0	0.0%	0		8.91s	12,053	294	0
GLM 5 Turbo	3.0	10.0	0.0%	0		4.89s	8,133	144	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Trinity Large Preview	10.0	10.0	100.0%	0		3.26s	6,900	186	0
GLM 5 Turbo	10.0	10.0	100.0%	0		2.47s	7,107	204	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Trinity Large Preview	5.3	10.0	33.3%	0		877ms	738	25	0
GLM 5 Turbo	5.3	10.0	33.3%	0		1.97s	687	25	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Trinity Large Preview	4.5	10.0	0.0%	0		873ms	498	104	0
GLM 5 Turbo	4.2	9.9	0.0%	0		2.18s	477	48	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Trinity Large Preview	3.5	10.0	0.0%	0		822ms	678	63	0
GLM 5 Turbo	6.5	10.0	50.0%	0		2.13s	636	65	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Trinity Large Preview	3.6	7.7	11.1%	1		1.97s	669	265	0
GLM 5 Turbo	5.5	7.4	44.4%	1		2.65s	609	180	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	6,699	267	0
GLM 5 Turbo	10.0	10.0	100.0%	0		8.21s	6,879	222	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Trinity Large Preview	3.0	10.0	0.0%	0		777ms	204	18	0
GLM 5 Turbo	3.0	10.0	0.0%	0		2.37s	186	16	0

Quick Compare

Switch Comparison Pair

Trinity Large PreviewnonevsQwen3 Coder Nextmedium Elephant AlphamediumvsGLM 5 Turbonone Mistral Small 4mediumvsGLM 5 Turbonone MiniMax M2.7mediumvsGLM 5 Turbonone MiniMax M2.5mediumvsGLM 5 Turbonone Trinity Large PreviewnonevsGLM 4.7 Flashmedium CobuddymediumvsGLM 5 Turbonone Trinity Large PreviewnonevsQwen3.5-9Bmedium Owl AlphamediumvsGLM 5 Turbonone Trinity Large PreviewnonevsElephant Alphamedium Qwen3 Coder NextmediumvsGLM 5 Turbonone gpt-oss-120bmediumFree AvailablevsGLM 5 Turbonone