AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs Google: Gemma 4 31B

Ringkasan

Perbandingan benchmark Gemini 3.1 Flash Lite Preview vs Gemma 4 31B: Gemini 3.1 Flash Lite Preview unggul dalam skor rata-rata dengan 6.5 vs 6.1. Gemma 4 31B memiliki biaya benchmark lebih rendah di $0.004 vs $0.026. Gemini 3.1 Flash Lite Preview lebih cepat di 2.77s vs 4.05s, dengan tingkat keberhasilan 61.9% vs 47.6%.

Model yang direkomendasikan: Gemma 4 31B - Its score stays close to the best score here (6.1 vs 6.5), while costing about 8.4x less than Gemini 3.1 Flash Lite Preview.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18

Metrik	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Rilis: 2026-03-03	Gemma 4 31B Gemma 4 31B none Rilis: 2026-04-02 Tersedia gratis

Metrik	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Rilis: 2026-03-03	Gemma 4 31B Gemma 4 31B none Rilis: 2026-04-02 Tersedia gratis
Skor	6.5	6.1
Peringkat	#82	#98
Keandalan	10.0	10.0
Konsistensi	10.0	10.0
Tes benar
Tingkat lulus per percobaan	61.9%	47.6%
Tes tidak stabil	0	0
Total Run	63	63
Biaya per hasil	0.196	0.034
Total Biaya	$0.026	$0.004
Harga input	$0.250 / 1M	$0.120 / 1M
Harga output	$1.500 / 1M	$0.350 / 1M
Total token input	32,715	20,911
Token output	2,286	1,407
Token penalaran	9,166	0
Waktu respons (rata-rata)	2.77s	4.05s
Waktu respons (maks)	11.91s	26.13s
Waktu respons (total)	58.12s	76.87s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#82 Gemini 3.1 Flash Lite Preview

low

Biaya: $0.002
Waktu: 3.7s
Token: 1,203 tok

#98 Gemma 4 31B

none

Biaya: $0.001
Waktu: 12.8s
Token: 795 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0		2.12s	506	462	1,638
Gemma 4 31B	6.5	10.0	50.0%	0		1.85s	852	45	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		1.39s	8,138	660	1,060
Gemma 4 31B	5.5	10.0	33.3%	0		11.19s	8,381	735	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		11.91s	8,381	225	762
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.00s	7,455	291	696
Gemma 4 31B	10.0	10.0	100.0%	0		2.25s	8,352	285	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		2.36s	641	18	1,212
Gemma 4 31B	7.7	10.0	66.7%	0		3.22s	903	27	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		1.54s	490	69	384
Gemma 4 31B	10.0	10.0	100.0%	0		2.09s	576	117	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	621	72	753
Gemma 4 31B	6.5	10.0	50.0%	0		2.84s	795	78	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.69s	566	243	1,248
Gemma 4 31B	6.5	10.0	33.3%	0		4.23s	828	108	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	5,757	237	993
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		1.35s	160	9	420
Gemma 4 31B	3.0	10.0	0.0%	0		1.25s	224	12	0

Perbandingan Cepat

Ganti Pasangan Perbandingan