AI BENCHY Compare

ByteDance Seed: Seed-2.0-Lite vs MiniMax: MiniMax M2.5

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-03-12

指標	Seed-2.0-Lite Seed-2.0-Lite none リリース: 2026-02-14	MiniMax M2.5 MiniMax M2.5 medium リリース: 2026-02-12

指標	Seed-2.0-Lite Seed-2.0-Lite none リリース: 2026-02-14	MiniMax M2.5 MiniMax M2.5 medium リリース: 2026-02-12
順位	#45	#49
平均スコア	4.9	4.7
一貫性	7.4	5.6
結果あたりのコスト	0.214	4.981
合計コスト	$0.015	$0.250
正解テスト
試行ごとの合格率	56.3%	60.4%
不安定なテスト	5	9
総実行回数	48	48
出力トークン	2,743	107,044
推論トークン	0	206,190
応答時間（平均）	2.49s	43.03s
応答時間（最大）	6.70s	237.27s
応答時間（合計）	39.91s	387.25s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

平均スコア vs 応答時間（平均）

合計出力トークン

平均スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Lite	10.0	4.6	22.2%	2		2.93s	703	0
MiniMax M2.5	9.3	7.9	88.9%	1		32.42s	286	45,112

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Lite	10.0	10.0	0.0%	0		6.59s	498	0
MiniMax M2.5	10.0	2.1	66.7%	1		60.39s	740	9,713

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Lite	9.9	10.0	100.0%	0		1.82s	246	0
MiniMax M2.5	10.0	1.7	66.7%	2		7.48s	266	3,835

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Lite	10.0	7.2	22.2%	1		1.33s	17	0
MiniMax M2.5	10.0	4.4	22.2%	2		237.27s	105,047	133,487

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.45s	294	0
MiniMax M2.5	3.0	2.5	33.3%	1		6.63s	25	1,686

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Lite	10.0	10.0	100.0%	0		1.06s	73	0
MiniMax M2.5	8.0	6.8	83.3%	1		4.64s	252	1,873

Puzzle Solving	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Lite	4.0	4.4	55.6%	2		2.46s	620	0
MiniMax M2.5	4.0	7.2	44.4%	1		11.54s	159	9,547

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Lite	10.0	10.0	100.0%	0		3.94s	292	0
MiniMax M2.5	10.0	10.0	100.0%	0		15.35s	269	937

クイック比較

比較ペアを切り替え

MiniMax M2.5mediumvsQwen3.5-35B-A3Bnone Seed-2.0-LitenonevsGrok 4.20 Multi-Agent Betamedium MiniMax M2.5mediumvsHunter Alphanone Seed-2.0-Litenonevsgpt-oss-120bmedium無料で利用可能 MiniMax M2.5mediumvsGPT-5.4none MiniMax M2.5mediumvsQwen3.5-27Bnone MiniMax M2.5mediumvsGrok 4.20 Betanone MiniMax M2.5mediumvsQwen3.5-122B-A10Bnone Seed-2.0-LitenonevsMercury 2medium Trinity Large Previewnone無料で利用可能vsMiniMax M2.5medium Gemini 2.5 FlashnonevsMiniMax M2.5medium MiniMax M2.5mediumvsQwen3.5-Flashnone