Bandingkan Grafik Metodologi

Bahasa:

❤️ Made by XCS

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs Google: Gemini 3.1 Flash Lite Preview

Bandingkan:

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-06

Metrik	ByteDance Seed: Seed-2.0-Mini medium Rilis: 2026-02-14	Google: Gemini 3.1 Flash Lite Preview high Rilis: 2026-03-03
Peringkat	#23	#8
Skor Rata-rata	6.9	8.2
Konsistensi	9.1	9.6
Biaya per hasil	0.280	19.243
Total Biaya	$0.028	$2.310
Tes benar
Tingkat lulus per percobaan	68.8%	77.1%
Tes tidak stabil	2	1
common.totalRuns	48 (16 x 3)	48 (16 x 3)
Token output	1,965	1,283
Token penalaran	58,456	1,533,310
Waktu respons (rata-rata)	65.09s	68.83s
Waktu respons (maks)	262.83s	280.52s
Waktu respons (total)	846.14s	1101.32s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor Rata-rata vs Waktu respons (rata-rata)

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
ByteDance Seed: Seed-2.0-Mini	7.0	10.0	66.7%	0		98.99s	354	9,352
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		43.87s	144	193,077

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		280.52s	335	380,440

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
ByteDance Seed: Seed-2.0-Mini	9.9	10.0	100.0%	0		24.27s	246	2,743
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		7.16s	279	6,186

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	0.0%	0		0ms	0	0
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		127.58s	18	566,202

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
ByteDance Seed: Seed-2.0-Mini	6.0	3.4	33.3%	1		36.65s	213	4,210
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		5.25s	117	3,915

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
Google: Gemini 3.1 Flash Lite Preview	9.0	6.9	66.7%	1		70.07s	69	190,053

Puzzle Solving	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
ByteDance Seed: Seed-2.0-Mini	7.0	7.2	88.9%	1		25.85s	457	5,060
Google: Gemini 3.1 Flash Lite Preview	7.0	10.0	66.7%	0		46.33s	87	190,953

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		7.73s	234	2,484

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-27Bmedium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Gemini 3.1 Flash Lite PreviewhighvsQwen3.5 Plus 2026-02-15medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.4medium Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3-Codexmedium Seed-2.0-MinimediumvsGemini 3 Flash Previewnone Seed-2.0-MinimediumvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Seed-2.0-MinimediumvsGPT-5.2 Chatnone