AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs Qwen: Qwen3.6 Max Preview

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-22

Metrik	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite high Rilis: 2026-05-08	Qwen3.6 Max Preview Qwen3.6 Max Preview medium Rilis: 2026-04-20

Metrik	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite high Rilis: 2026-05-08	Qwen3.6 Max Preview Qwen3.6 Max Preview medium Rilis: 2026-04-20
Skor	7.5	8.4
Peringkat	#48	#14
Keandalan	9.8	10.0
Konsistensi	8.1	9.2
Tes benar
Tingkat lulus per percobaan	74.1%	80.0%
Tes tidak stabil	4	2
Total Run	54	60
Biaya per hasil	18.579	6.906
Total Biaya	$2.044	$1.036
Harga input	$0.250 / 1M	$1.040 / 1M
Harga output	$1.500 / 1M	$6.240 / 1M
Token output	1,984	2,225
Token penalaran	1,355,583	130,808
Waktu respons (rata-rata)	61.96s	58.41s
Waktu respons (maks)	149.23s	238.07s
Waktu respons (total)	1115.31s	1168.27s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	9.4	10.0	100.0%	0		37.16s	100	130,598
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		22.13s	228	10,075

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		137.63s	666	188,733
Qwen3.6 Max Preview	8.2	6.7	83.3%	1		177.97s	407	39,442

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		149.23s	327	198,243
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		121.49s	390	14,575

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		4.49s	279	7,351
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		41.15s	270	10,106

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	3.6	7.2	22.2%	1		139.90s	18	566,210
Qwen3.6 Max Preview	2.9	7.2	11.1%	1		95.91s	60	30,371

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	5.0	2.1	66.7%	1		45.69s	95	64,644
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		32.24s	129	3,510

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	7.3	5.8	83.3%	1		23.26s	52	3,549
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.31s	103	5,848

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	5.7	6.8	44.4%	1		50.83s	213	193,654
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		24.19s	301	7,649

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		6.44s	234	2,601
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		18.32s	309	1,571

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Flash Lite	-	-	-	-	-	-	-	-
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		60.56s	28	7,661

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 3 Flash PreviewlowvsQwen3.6 Max Previewmedium Gemini 3.5 FlashminimalvsQwen3.6 Max Previewmedium Gemini 3.5 FlashnonevsQwen3.6 Max Previewmedium GPT-5.5lowvsQwen3.6 Max Previewmedium Gemini 3 Flash PreviewnonevsQwen3.6 Max Previewmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Max Previewmedium GPT-5.2 ChatnonevsQwen3.6 Max Previewmedium Gemini 3.5 FlashlowvsQwen3.6 Max Previewmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 Max Previewmedium Gemini 3.1 Flash LitelowvsQwen3.6 Max Previewmedium GPT-5.3 ChatnonevsQwen3.6 Max Previewmedium DeepSeek V4 FlashhighTersedia gratisvsQwen3.6 Max Previewmedium