比較対象モデル

GLM 5 (medium) vs GLM 5.1 (medium) vs Kimi K2.5 (medium) vs Qwen3.6 Plus Preview (medium) ベンチマーク比較: GLM 5 (medium) はスコアで 7.7 と首位です。 GLM 5 (medium) は信頼性で 10.0 と首位です。 Qwen3.6 Plus Preview (medium) は合計コストが最も低く、$0.000 です。 Qwen3.6 Plus Preview (medium) は 15.25s で最速です。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-07-25

順位: #49
合計出力トークン: 124,566
応答時間（平均）: 33.54s
合計コスト: $0.307

順位: #82
合計出力トークン: 152,552
応答時間（平均）: 46.77s
合計コスト: $0.535

順位: #85
合計出力トークン: 227,367
応答時間（平均）: 99.00s
合計コスト: $0.600

順位: #190
合計出力トークン: 63,350
応答時間（平均）: 15.25s
合計コスト: $0.000

おすすめモデル GLM 5 (medium)

ここでは最高スコア（7.7）で、この比較の他のモデルより約 1.8 倍低コストです。

詳細比較

指標	GLM 5 GLM 5 medium リリース: 2026-02-12	GLM 5.1 GLM 5.1 medium リリース: 2026-04-07	Kimi K2.5 Kimi K2.5 medium リリース: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium リリース: 2026-04-20 無料で利用可能

指標	GLM 5 GLM 5 medium リリース: 2026-02-12	GLM 5.1 GLM 5.1 medium リリース: 2026-04-07	Kimi K2.5 Kimi K2.5 medium リリース: 2026-01-27	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium リリース: 2026-04-20 無料で利用可能
スコア	7.7	7.1	7.0	4.9
順位	#49	#82	#85	#190
信頼性	10.0	8.3	10.0	該当なし
一貫性	8.1	8.4	7.0	8.6
正解テスト
試行ごとの合格率	78.8%	69.7%	65.2%	40.9%
不安定なテスト	4	4	8	0
総実行回数	63	66	66	57
結果あたりのコスト	1.668	4.202	4.789	0.000
合計コスト	$0.307	$0.535	$0.600	$0.000
入力価格	$0.950 / 1M	$0.966 / 1M	$0.571 / 1M	$0.000 / 1M
出力価格	$2.551 / 1M	$3.036 / 1M	$2.850 / 1M	$0.000 / 1M
合計入力トークン	35,224	82,623	118,448	32,639
出力トークン	21,570	16,089	62,124	1,153
推論トークン	102,996	136,463	165,243	62,197
応答時間（平均）	33.54s	46.77s	99.00s	15.25s
応答時間（最大）	99.85s	308.75s	281.00s	43.55s
応答時間（合計）	435.99s	982.16s	1485.04s	182.96s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#49 GLM 5

medium

コスト: $0.005
時間: 20.7s
トークン: 2,068 tok

#82 GLM 5.1

medium

無効なSVG

コスト: $0.000
時間: 300.0s
トークン: 0 tok

#85 MoonshotAI: Kimi K2.5

medium

コスト: $0.030
時間: 58.6s
トークン: 8,683 tok

#190 Qwen3.6 Plus Preview

medium

このモデルのショーケース結果はまだ生成されていません。

コスト: $0.000
時間: -
トークン: 0 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

カテゴリ:

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GLM 5	10.0	10.0	100.0%	0	23.66s	555	480	7,056
GLM 5.1	10.0	10.0	100.0%	0	8.31s	555	401	5,122
Kimi K2.5	7.3	5.8	83.3%	2	51.38s	634	2,789	8,880
Qwen3.6 Plus Preview	8.3	10.0	75.0%	0	11.69s	501	61	5,812

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GLM 5	10.0	10.0	100.0%	0	74.30s	7,254	2,997	52,930
GLM 5.1	4.6	3.7	44.5%	2	109.63s	5,702	4,871	37,826
Kimi K2.5	6.1	4.6	66.7%	2	217.49s	6,935	5,705	74,693
Qwen3.6 Plus Preview	9.8	3.3	0.0%	0	0ms	0	0	0

複合	スコア	一貫性	試行ごとの合格率	応答時間（平均）	入力トークン	出力トークン	推論トークン
GLM 5	5.0	5.0	50.0%	28.96s	12,804	662	3,242
GLM 5.1	9.8	10.0	100.0%	175.93s	66,926	4,761	65,248
Kimi K2.5	6.7	9.1	50.0%	89.19s	95,416	14,448	11,209
Qwen3.6 Plus Preview	5.0	5.0	50.0%	34.95s	14,934	452	13,073

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GLM 5	7.1	5.6	83.3%	1	8.90s	5,508	567	3,734
GLM 5.1	10.0	10.0	100.0%	0	9.33s	7,107	991	4,552
Kimi K2.5	10.0	10.0	100.0%	0	49.78s	7,020	563	7,940
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0	14.95s	7,782	270	10,706

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GLM 5	3.5	4.4	33.3%	2	0ms	260	13,176	14,137
GLM 5.1	5.3	10.0	33.3%	0	29.77s	489	969	11,314
Kimi K2.5	3.5	4.4	33.3%	2	137.29s	485	20,753	30,564
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0	22.08s	665	49	26,895

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GLM 5	6.1	3.1	66.7%	1	14.69s	477	2,020	2,248
GLM 5.1	10.0	10.0	100.0%	0	20.95s	477	2,875	2,875
Kimi K2.5	6.5	3.4	66.7%	1	69.73s	480	3,815	4,262
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0	0ms	0	0	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GLM 5	10.0	10.0	100.0%	0	7.25s	636	1,001	2,129
GLM 5.1	6.4	5.8	66.7%	1	7.47s	634	204	1,617
Kimi K2.5	10.0	10.0	100.0%	0	92.47s	675	5,371	6,547
Qwen3.6 Plus Preview	6.5	10.0	50.0%	0	3.40s	381	27	1,383

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
GLM 5	10.0	10.0	100.0%	0	11.33s	609	33	4,076
GLM 5.1	8.2	7.2	88.9%	1	31.64s	609	935	5,730
Kimi K2.5	5.3	7.3	44.4%	1	43.23s	659	8,426	12,692
Qwen3.6 Plus Preview	5.3	10.0	33.3%	0	7.52s	183	27	2,998

ツール呼び出し	スコア	一貫性	試行ごとの合格率	応答時間（平均）	入力トークン	出力トークン	推論トークン
GLM 5	10.0	10.0	100.0%	15.93s	6,935	233	994
GLM 5.1	3.0	10.0	0.0%	0ms	0	0	0
Kimi K2.5	10.0	10.0	100.0%	31.74s	5,933	242	812
Qwen3.6 Plus Preview	10.0	10.0	100.0%	5.87s	8,193	267	1,330

雑学	スコア	一貫性	試行ごとの合格率	応答時間（平均）	入力トークン	出力トークン	推論トークン
GLM 5	3.0	10.0	0.0%	67.37s	186	401	12,450
GLM 5.1	3.0	10.0	0.0%	29.40s	124	82	2,179
Kimi K2.5	3.0	10.0	0.0%	83.95s	211	12	7,644
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0ms	0	0	0

クイック比較

比較ペアを切り替え

Gemini 3.5 FlashnonevsKimi K2.5medium GPT-5.6 LunahighvsGLM 5medium Claude Opus 4.8lowvsGLM 5medium Qwen3.7 PlusnonevsGLM 5.1medium DeepSeek V4 FlashhighvsGLM 5medium DeepSeek V4 ProhighvsGLM 5medium DeepSeek V4 PrononevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.6 Solnone KAT-Coder-Pro V2.5highvsGLM 5.1medium Step 3.7 FlashlowvsGLM 5.1medium Kimi K2.5mediumvsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsGLM 5.1medium