AI BENCHY Compare

Model yang Dibandingkan

Ringkasan

Perbandingan benchmark Gemma 4 31B vs Gemini 3 Flash Preview vs Gemini 3 PRO Preview vs Gemini 3.1 Pro PreviewGemini 3 Flash Preview unggul pada Skor dengan 9.6. Gemma 4 31B unggul pada Keandalan dengan 10.0. Gemma 4 31B memiliki Total Biaya terendah di $0.033. Gemini 3 PRO Preview paling cepat di 9.05s.

Model yang direkomendasikan: Gemini 3 Flash Preview - It has the best score here (9.6), while responding about 1.5x faster than model lain dalam perbandingan ini.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-02

Metrik	Gemma 4 31B Gemma 4 31B medium Rilis: 2026-04-02 Tersedia gratis	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Rilis: 2025-12-17	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Rilis: 2025-11-18	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Rilis: 2026-02-19

Metrik	Gemma 4 31B Gemma 4 31B medium Rilis: 2026-04-02 Tersedia gratis	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Rilis: 2025-12-17	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Rilis: 2025-11-18	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Rilis: 2026-02-19
Skor	6.3	9.6	6.2	9.2
Peringkat	#91	#2	#94	#7
Keandalan	10.0	10.0	T/A	10.0
Konsistensi	9.4	9.7	10.0	10.0
Tes benar
Tingkat lulus per percobaan	69.8%	98.4%	66.7%	90.5%
Tes tidak stabil	1	1	0	0
Total Run	63	63	63	63
Biaya per hasil	0.257	3.335	1.406	5.546
Total Biaya	$0.033	$0.667	$0.385	$1.054
Harga input	$0.120 / 1M	$0.500 / 1M	$9.506 / 1M	$2.000 / 1M
Harga output	$0.350 / 1M	$3.000 / 1M	$9.506 / 1M	$12.000 / 1M
Total token input	17,957	37,017	28,848	41,617
Token output	22,356	2,006	1,490	1,977
Token penalaran	65,726	214,153	10,102	78,896
Waktu respons (rata-rata)	56.55s	18.64s	9.05s	20.14s
Waktu respons (maks)	437.40s	117.26s	26.24s	88.68s
Waktu respons (total)	1074.41s	391.35s	90.53s	281.92s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#91 Gemma 4 31B

medium

Biaya: $0.002
Waktu: 45.7s
Token: 2,696 tok

#2 Gemini 3 Flash Preview

medium

Biaya: $0.010
Waktu: 17.9s
Token: 3,236 tok

#94 Gemini 3 PRO Preview

medium

No endpoints found for google/gemini-3-pro-preview.

Biaya: $0.000
Waktu: 0.1s
Token: 0 tok

#7 Gemini 3.1 Pro Preview

medium

Biaya: $0.115
Waktu: 87.2s
Token: 9,629 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemma 4 31B	10.0	10.0	100.0%	12.89s	816	962	2,046
Gemini 3 Flash Preview	10.0	10.0	100.0%	3.88s	494	330	3,216
Gemini 3 PRO Preview	10.0	10.0	100.0%	14.99s	500	149	1,485
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	7.90s	498	112	3,218

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemma 4 31B	4.3	5.8	22.2%	1	219.76s	5,568	11,098	33,212
Gemini 3 Flash Preview	8.6	7.6	88.9%	1	84.40s	8,122	462	161,084
Gemini 3 PRO Preview	3.0	10.0	0.0%	0	0ms	0	0	0
Gemini 3.1 Pro Preview	7.9	9.9	66.7%	0	40.17s	8,124	435	41,247

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemma 4 31B	3.0	10.0	0.0%	0ms	0	0	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	22.42s	12,873	351	10,485
Gemini 3 PRO Preview	3.0	10.0	0.0%	10.37s	13,211	351	952
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	40.61s	17,240	432	9,281

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemma 4 31B	10.0	10.0	100.0%	21.11s	8,334	1,822	2,951
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.43s	7,548	279	4,893
Gemini 3 PRO Preview	10.0	10.0	100.0%	10.84s	7,259	279	3,156
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	7.72s	7,265	279	3,904

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemma 4 31B	7.7	10.0	66.7%	38.48s	876	4,349	8,985
Gemini 3 Flash Preview	10.0	10.0	100.0%	15.27s	633	12	21,684
Gemini 3 PRO Preview	5.3	10.0	33.3%	7.01s	643	15	1,195
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	32.73s	635	18	12,424

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemma 4 31B	10.0	10.0	100.0%	9.57s	567	105	888
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.19s	486	72	1,905
Gemini 3 PRO Preview	10.0	10.0	100.0%	9.34s	486	78	374
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	11.77s	490	108	1,179

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemma 4 31B	10.0	10.0	100.0%	12.76s	777	533	2,035
Gemini 3 Flash Preview	10.0	10.0	100.0%	4.04s	615	72	2,709
Gemini 3 PRO Preview	9.8	10.0	100.0%	3.26s	623	69	754
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	9.56s	621	72	2,236

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemma 4 31B	9.9	10.0	100.0%	26.91s	801	1,795	5,595
Gemini 3 Flash Preview	10.0	10.0	100.0%	4.05s	558	183	4,365
Gemini 3 PRO Preview	10.0	10.0	100.0%	3.88s	570	225	1,215
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	6.90s	570	235	3,128

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemma 4 31B	3.0	10.0	0.0%	0ms	0	0	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	12.60s	5,532	234	1,487
Gemini 3 PRO Preview	10.0	10.0	100.0%	11.96s	5,556	324	971
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	23.15s	6,018	274	982

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemma 4 31B	3.0	10.0	0.0%	90.14s	218	1,692	10,014
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.50s	156	11	2,325
Gemini 3 PRO Preview	3.0	10.0	0.0%	0ms	0	0	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	6.27s	156	12	1,297

Perbandingan Cepat

Ganti Pasangan Perbandingan