AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs Google: Gemini 3.1 Flash Lite

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-05-22

指標	Seed-2.0-Mini Seed-2.0-Mini medium リリース: 2026-02-14	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite none リリース: 2026-05-08

指標	Seed-2.0-Mini Seed-2.0-Mini medium リリース: 2026-02-14	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite none リリース: 2026-05-08
スコア	7.1	6.6
順位	#68	#85
信頼性	5.0	10.0
一貫性	9.2	8.5
正解テスト
試行ごとの合格率	60.0%	55.0%
不安定なテスト	2	4
総実行回数	60	60
結果あたりのコスト	0.394	0.135
合計コスト	$0.044	$0.013
????	$0.100 / 1M	$0.250 / 1M
????	$0.400 / 1M	$1.500 / 1M
出力トークン	2,485	2,478
推論トークン	95,367	0
応答時間（平均）	79.17s	1.09s
応答時間（最大）	262.83s	2.97s
応答時間（合計）	1345.89s	21.79s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	6.6	10.0	50.0%	0		74.75s	360	9,520
Gemini 3.1 Flash Lite	7.5	8.4	66.7%	1		1.07s	639	0

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	6.8	9.8	50.0%	0		220.48s	464	34,964
Gemini 3.1 Flash Lite	6.8	10.0	50.0%	0		1.13s	660	0

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		2.73s	357	0

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	10.0	10.0	100.0%	0		24.27s	246	2,743
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		843ms	279	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	3.0	10.0	0.0%	0		0ms	0	0
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		762ms	15	0

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	5.1	3.4	33.3%	1		36.65s	213	4,210
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		992ms	63	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		859ms	72	0

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	8.2	7.2	88.9%	1		25.85s	457	5,060
Gemini 3.1 Flash Lite	6.3	4.8	66.7%	2		720ms	150	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.97s	234	0

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Seed-2.0-Mini	3.0	10.0	0.0%	0		56.76s	50	1,779
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		733ms	9	0

クイック比較

比較ペアを切り替え

Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Gemini 3.1 Flash LitenonevsQwen3.6 27Bmedium Seed-2.0-MinimediumvsQwen3.6 Max Previewnone DeepSeek V4 ProhighvsGemini 3.1 Flash Litenone Gemini 3.1 Flash LitenonevsKimi K2.5medium Gemini 3.1 Flash LitenonevsGrok 4.20medium Seed-2.0-MinimediumvsRing-2.6-1Tnone Gemini 3.1 Flash LitenonevsMercury 2medium Seed-2.0-MinimediumvsDeepSeek V4 Flashhigh無料で利用可能 Seed-2.0-MinimediumvsGemma 4 31Bnone無料で利用可能 Seed-2.0-MinimediumvsGPT-5.3 Chatnone Gemini 3.1 Flash LitenonevsGPT-5 Minimedium