Compare Charts Methodology

Language:

❤️ Made by XCS

AI BENCHY Compare

Trinity Large Preview vs Z.ai: GLM 4.7 Flash

Compare:

Last updated at: 2026-03-06

Metric	Trinity Large Preview none Release: 2026-01-27 Free Available	Z.ai: GLM 4.7 Flash medium Release: 2026-01-19
Rank	#45	#52
Avg Score	4.2	3.1
Consistency	9.6	6.4
Cost per result	0.000	1.040
Total Cost	$0.000	$0.042
Tests Correct
Attempt pass rate	33.3%	41.7%
Flaky tests	1	7
Total Runs	48	48
Output Tokens	1,837	38,682
Reasoning Tokens	0	64,952
Response Time (avg)	3.15s	36.84s
Response Time (max)	8.91s	174.55s
Response Time (total)	50.46s	331.58s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
Z.ai: GLM 4.7 Flash	4.0	4.5	55.6%	2		27.09s	1,085	5,597

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
Z.ai: GLM 4.7 Flash	10.0	2.1	33.3%	1		65.57s	2,585	20,648

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
Z.ai: GLM 4.7 Flash	5.0	10.0	50.0%	0		1.51s	584	2,755

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
Z.ai: GLM 4.7 Flash	10.0	4.4	33.3%	2		174.55s	33,000	25,394

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
Z.ai: GLM 4.7 Flash	10.0	9.7	0.0%	0		18.14s	18	2,138

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
Z.ai: GLM 4.7 Flash	5.0	5.8	66.7%	1		2.97s	388	2,181

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
Z.ai: GLM 4.7 Flash	10.0	7.2	11.1%	1		12.90s	798	5,225

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
Z.ai: GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	224	1,014

Quick Compare

Switch Comparison Pair

Grok 4.1 FastnonevsGLM 4.7 Flashmedium MiMo-V2-FlashnonevsGLM 4.7 Flashmedium Mercury 2nonevsGLM 4.7 Flashmedium Trinity Large PreviewnoneFree AvailablevsMiniMax M2.5medium LFM2-24B-A2BnonevsGLM 4.7 Flashmedium Trinity Large PreviewnoneFree AvailablevsQwen3 Coder Nextmedium Trinity Large PreviewnoneFree Availablevsgpt-oss-120bmediumFree Available Qwen3 Coder NextnonevsGLM 4.7 Flashmedium GPT-4o-mininonevsGLM 4.7 Flashmedium Kimi K2.5nonevsGLM 4.7 Flashmedium Trinity Large PreviewnoneFree AvailablevsMercury 2medium Trinity Large PreviewnoneFree AvailablevsQwen3.5-35B-A3Bmedium