AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs OpenAI: GPT-5.2

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-22

Metrik	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite high Rilis: 2026-05-08	GPT-5.2 GPT-5.2 medium Rilis: 2025-12-11

Metrik	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite high Rilis: 2026-05-08	GPT-5.2 GPT-5.2 medium Rilis: 2025-12-11
Skor	7.5	7.4
Peringkat	#48	#57
Keandalan	9.8	10.0
Konsistensi	8.1	8.3
Tes benar
Tingkat lulus per percobaan	74.1%	70.0%
Tes tidak stabil	4	4
Total Run	54	60
Biaya per hasil	18.579	4.081
Total Biaya	$2.044	$0.490
Harga input	$0.250 / 1M	$1.750 / 1M
Harga output	$1.500 / 1M	$14.000 / 1M
Token output	1,984	2,754
Token penalaran	1,355,583	28,303
Waktu respons (rata-rata)	61.96s	16.44s
Waktu respons (maks)	149.23s	77.80s
Waktu respons (total)	1115.31s	213.77s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	9.4	10.0	100.0%	0		37.16s	100	130,598
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		137.63s	666	188,733
GPT-5.2	10.0	10.0	100.0%	0		23.15s	490	8,269

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		149.23s	327	198,243
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		4.49s	279	7,351
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	3.6	7.2	22.2%	1		139.90s	18	566,210
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	5.0	2.1	66.7%	1		45.69s	95	64,644
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	7.3	5.8	83.3%	1		23.26s	52	3,549
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	5.7	6.8	44.4%	1		50.83s	213	193,654
GPT-5.2	7.6	7.3	77.8%	1		5.47s	609	938

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		6.44s	234	2,601
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	-	-	-	-	-	-	-	-
GPT-5.2	3.0	10.0	0.0%	0		28.18s	26	3,223

Perbandingan Cepat

Ganti Pasangan Perbandingan

DeepSeek V4 FlashhighTersedia gratisvsGPT-5.2medium Gemini 3.1 Flash LitelowvsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Ring-2.6-1TnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2medium Gemini 3 Flash PreviewnonevsGPT-5.2medium GPT-5.2mediumvsQwen3.6 Max Previewnone Claude Sonnet 4.6nonevsGPT-5.2medium GPT-5.2mediumvsQwen3.7 Maxnone Gemini 3.5 FlashminimalvsGPT-5.2medium Gemma 4 31BnoneTersedia gratisvsGPT-5.2medium Gemini 3.1 Flash LiteminimalvsGPT-5.2medium