AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs xAI: Grok 4.20

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-04

Metrik	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Rilis: 2026-03-03	Grok 4.20 Grok 4.20 medium Rilis: 2026-03-31

Metrik	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Rilis: 2026-03-03	Grok 4.20 Grok 4.20 medium Rilis: 2026-03-31
Skor	7.2	7.1
Peringkat	#58	#65
Keandalan	10.0	10.0
Konsistensi	9.7	8.8
Tes benar
Tingkat lulus per percobaan	60.3%	63.5%
Tes tidak stabil	1	3
Total Run	63	63
Biaya per hasil	0.148	8.309
Total Biaya	$0.018	$0.609
Harga input	$0.250 / 1M	$1.250 / 1M
Harga output	$1.500 / 1M	$2.500 / 1M
Total token input	37,582	44,433
Token output	5,547	1,819
Token penalaran	0	219,524
Waktu respons (rata-rata)	1.21s	27.68s
Waktu respons (maks)	3.39s	199.66s
Waktu respons (total)	25.45s	581.26s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	7.5	8.4	66.7%	1		1.04s	504	1,092	0
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		967ms	8,128	670	0
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		3.20s	13,026	339	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.22s	7,550	399	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		942ms	641	568	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		741ms	488	69	0
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	623	574	0
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		900ms	570	1,045	0
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	5,894	782	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		814ms	158	9	0
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 3.1 Flash Lite PreviewnonevsGLM 5V Turbomedium Gemini 3.1 Flash Lite PreviewnonevsKimi K2.6mediumTersedia gratis Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.7 Flashlow Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium GPT-5.3 ChatnonevsGrok 4.20medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5 Minimedium Gemini 3.1 Flash LitelowvsGrok 4.20medium Claude Opus 4.8nonevsGrok 4.20medium Step 3.7 FlashhighvsGrok 4.20medium