AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs Z.ai: GLM 5.1

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-04-14

指標	Seed-2.0-Mini Seed-2.0-Mini medium リリース: 2026-02-14	GLM 5.1 GLM 5.1 medium リリース: 2026-04-07

指標	Seed-2.0-Mini Seed-2.0-Mini medium リリース: 2026-02-14	GLM 5.1 GLM 5.1 medium リリース: 2026-04-07
スコア	7.5	7.8
順位	#36	#31
一貫性	9.2	8.6
正解テスト
試行ごとの合格率	66.7%	75.9%
不安定なテスト	2	3
総実行回数	54	54
結果あたりのコスト	0.333	1.674
合計コスト	$0.037	$0.201
????	$0.100 / 1M	$0.950 / 1M
????	$0.400 / 1M	$3.150 / 1M
出力トークン	2,419	8,005
推論トークン	79,238	49,090
応答時間（平均）	69.70s	24.13s
応答時間（最大）	262.83s	118.52s
応答時間（合計）	1045.47s	410.25s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	6.6	10.0	50.0%	0		74.75s	360	9,520
GLM 5.1	10.0	10.0	100.0%	0		8.31s	401	5,122

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	10.0	10.0	100.0%	0		197.31s	448	20,614
GLM 5.1	4.7	1.6	66.7%	1		118.52s	1,339	13,777

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
GLM 5.1	9.5	10.0	100.0%	0		43.11s	327	4,206

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	10.0	10.0	100.0%	0		24.27s	246	2,743
GLM 5.1	10.0	10.0	100.0%	0		9.33s	991	4,552

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	3.0	10.0	0.0%	0		0ms	0	0
GLM 5.1	5.3	10.0	33.3%	0		29.77s	969	11,314

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	5.1	3.4	33.3%	1		36.65s	213	4,210
GLM 5.1	10.0	10.0	100.0%	0		20.95s	2,875	2,875

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
GLM 5.1	6.4	5.8	66.7%	1		7.47s	204	1,617

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	8.2	7.2	88.9%	1		25.85s	457	5,060
GLM 5.1	8.2	7.2	88.9%	1		23.85s	899	5,627

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
GLM 5.1	3.0	10.0	0.0%	0		0ms	0	0

クイック比較

比較ペアを切り替え

Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium GPT-5.2 ChatnonevsGLM 5.1medium GPT-5.3 ChatnonevsGLM 5.1medium Seed-2.0-MinimediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGLM 5.1medium Gemini 3 Flash PreviewnonevsGLM 5.1medium Claude Sonnet 4.6nonevsGLM 5.1medium Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Seed-2.0-MinimediumvsGPT-5.2 Chatnone Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewlow Seed-2.0-MinimediumvsGemini 3 Flash Previewnone