Compare Charts

Language:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Z.ai: GLM 4.7 Flash

Compare:

Last updated at: 2026-03-05

Metric	OpenAI: GPT-5.4 none Release: 2026-03-05	Z.ai: GLM 4.7 Flash medium Release: 2026-01-19
Rank	#44	#52
Avg Score	46	33
Consistency	89	61
Cost per result	1.496	1.018
Total Cost	$0.090	$0.041
Response Time (avg)	1.46s	39.18s
Response Time (max)	2.89s	174.55s
Response Time (total)	21.86s	313.44s
Tests Correct
Attempt pass rate	44.4%	44.4%
Flaky tests	2	7
Output Tokens	1,635	38,664
Reasoning Tokens	0	62,814

Top Models by Score

Response Time (avg)

Score vs Total Cost

Avg Score vs Response Time (avg)

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	100	73	11.1%	1		1.41s	388	0
Z.ai: GLM 4.7 Flash	40	45	55.6%	2		27.09s	1,085	5,597

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	100	100	0.0%	0		2.89s	291	0
Z.ai: GLM 4.7 Flash	100	21	33.3%	1		65.57s	2,585	20,648

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	99	100	100.0%	0		1.04s	222	0
Z.ai: GLM 4.7 Flash	50	100	50.0%	0		1.51s	584	2,755

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	40	72	44.4%	1		1.07s	50	0
Z.ai: GLM 4.7 Flash	100	44	33.3%	2		174.55s	33,000	25,394

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	55	100	50.0%	0		1.07s	81	0
Z.ai: GLM 4.7 Flash	50	58	66.7%	1		2.97s	388	2,181

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	40	98	33.3%	0		1.52s	357	0
Z.ai: GLM 4.7 Flash	100	72	11.1%	1		12.90s	798	5,225

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
OpenAI: GPT-5.4	100	100	100.0%	0		2.75s	246	0
Z.ai: GLM 4.7 Flash	100	100	100.0%	0		15.95s	224	1,014

Quick Compare

Switch Comparison Pair

Mercury 2nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumvsGPT-5.4none Qwen3 Coder NextnonevsGLM 4.7 Flashmedium Grok 4.1 FastnonevsGLM 4.7 Flashmedium Kimi K2.5nonevsGLM 4.7 Flashmedium MiMo-V2-FlashnonevsGLM 4.7 Flashmedium LFM2-24B-A2BnonevsGLM 4.7 Flashmedium GPT-4o-mininonevsGLM 4.7 Flashmedium Mercury 2mediumvsGPT-5.4none Trinity Large Preview (free)noneFree AvailablevsGLM 4.7 Flashmedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3 Coder Nextmedium