AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Z.ai: GLM 5

概要

GPT-5.3 Chat vs GLM 5 の benchmark 比較: GLM 5 が平均スコアでリードし、8.6 vs 7.5 です。 GLM 5 の benchmark コストが低く、$0.228 vs $0.433 です。 GPT-5.3 Chat の方が高速で、6.34s vs 33.54s です、成功率は 66.7% vs 82.5% です。

おすすめモデル: GLM 5 - ここでは最高スコア（8.6）で、GPT-5.3 Chat より約 1.9 倍低コストです。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-17

指標	GPT-5.3 Chat GPT-5.3 Chat none リリース: 2026-03-03	GLM 5 GLM 5 medium リリース: 2026-02-12

指標	GPT-5.3 Chat GPT-5.3 Chat none リリース: 2026-03-03	GLM 5 GLM 5 medium リリース: 2026-02-12
スコア	7.5	8.6
順位	#45	#15
信頼性	10.0	10.0
一貫性	8.1	8.5
正解テスト
試行ごとの合格率	66.7%	82.5%
不安定なテスト	5	4
総実行回数	63	63
結果あたりのコスト	3.605	1.668
合計コスト	$0.433	$0.228
入力価格	$1.750 / 1M	$0.600 / 1M
出力価格	$14.000 / 1M	$1.920 / 1M
合計入力トークン	34,209	35,224
出力トークン	26,617	21,570
推論トークン	0	102,996
応答時間（平均）	6.34s	33.54s
応答時間（最大）	18.33s	99.85s
応答時間（合計）	133.13s	435.99s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#45 GPT-5.3 Chat

none

Cost: $0.008
Time: 8.1s
Tokens: 634 tok

#15 GLM 5

medium

Cost: $0.005
Time: 20.7s
Tokens: 2,068 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0
GLM 5	10.0	10.0	100.0%	0		23.66s	555	480	7,056

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0
GLM 5	10.0	10.0	100.0%	0		74.30s	7,254	2,997	52,930

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	11,019	2,614	0
GLM 5	10.0	10.0	100.0%	0		28.96s	12,804	662	3,242

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0
GLM 5	7.1	5.6	83.3%	1		8.90s	5,508	567	3,734

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0
GLM 5	3.5	4.4	33.3%	2		0ms	260	13,176	14,137

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0
GLM 5	6.1	3.1	66.7%	1		14.69s	477	2,020	2,248

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0
GLM 5	10.0	10.0	100.0%	0		7.25s	636	1,001	2,129

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0
GLM 5	10.0	10.0	100.0%	0		11.33s	609	33	4,076

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0
GLM 5	10.0	10.0	100.0%	0		15.93s	6,935	233	994

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0
GLM 5	3.0	10.0	0.0%	0		67.37s	186	401	12,450

クイック比較

比較ペアを切り替え

Mercury 2mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.6 Flashmedium DeepSeek V3.2mediumvsGPT-5.3 Chatnone GPT-5.2 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsGrok Build 0.1medium DeepSeek V4 ProhighvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2.5-Promedium MiniMax M3mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok 4.20medium