AI BENCHY Compare

OpenAI: gpt-oss-120b vs Z.ai: GLM 4.7 Flash

Last updated at: 2026-04-11

Metric	gpt-oss-120b gpt-oss-120b none Release: 2025-08-05 Free Available	GLM 4.7 Flash GLM 4.7 Flash medium Release: 2026-01-19

Metric	gpt-oss-120b gpt-oss-120b none Release: 2025-08-05 Free Available	GLM 4.7 Flash GLM 4.7 Flash medium Release: 2026-01-19
Score	5.2	4.6
Rank	#79	#87
Consistency	7.9	6.3
Tests Correct
Attempt pass rate	38.9%	38.9%
Flaky tests	5	8
Total Runs	54	54
Cost per result	0.221	1.126
Total Cost	$0.009	$0.046
Input Price	$0.039 / 1M	$0.060 / 1M
Output Price	$0.190 / 1M	$0.400 / 1M
Output Tokens	44,652	39,688
Reasoning Tokens	0	72,401
Response Time (avg)	11.96s	32.33s
Response Time (max)	68.97s	174.55s
Response Time (total)	179.34s	355.65s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	6.6	8.0	58.3%	1		6.03s	4,867	0
GLM 4.7 Flash	4.7	5.9	41.7%	2		14.95s	1,122	6,110

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0
GLM 4.7 Flash	3.6	2.1	33.3%	1		21.26s	969	6,936

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
GLM 4.7 Flash	2.8	2.1	33.3%	1		65.57s	2,585	20,648

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0
GLM 4.7 Flash	6.3	10.0	50.0%	0		1.51s	584	2,755

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0
GLM 4.7 Flash	3.5	4.4	33.3%	2		174.55s	33,000	25,394

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.6	10.0	0.0%	0		2.83s	586	0
GLM 4.7 Flash	3.6	9.7	0.0%	0		18.14s	18	2,138

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	8.4	6.9	83.3%	1		5.10s	1,982	0
GLM 4.7 Flash	6.2	5.8	66.7%	1		2.97s	388	2,181

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	4.5	4.8	44.5%	2		6.86s	3,904	0
GLM 4.7 Flash	2.9	7.2	11.1%	1		12.90s	798	5,225

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	224	1,014

Quick Compare

Switch Comparison Pair

MiMo-V2-FlashnonevsGLM 4.7 Flashmedium Grok 4.1 FastnonevsGLM 4.7 Flashmedium MiniMax M2.7mediumvsgpt-oss-120bnoneFree Available GPT-5.4 NanononevsGLM 4.7 Flashmedium Mercury 2nonevsGLM 4.7 Flashmedium Qwen3.5-9BnonevsGLM 4.7 Flashmedium GPT-4o-mininonevsGLM 4.7 Flashmedium Mistral Small 4mediumvsgpt-oss-120bnoneFree Available gpt-oss-120bnoneFree AvailablevsQwen3 Coder Nextmedium Nemotron 3 SupernoneFree AvailablevsGLM 4.7 Flashmedium MiniMax M2.5mediumFree Availablevsgpt-oss-120bnoneFree Available Qwen3 Coder NextnonevsGLM 4.7 Flashmedium