AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Qwen: Qwen3.5-9B

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-12

Metrik	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Rilis: 2026-02-19	Qwen3.5-9B Qwen3.5-9B medium Rilis: 2026-03-02

Metrik	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Rilis: 2026-02-19	Qwen3.5-9B Qwen3.5-9B medium Rilis: 2026-03-02
Peringkat	#2	#66
Skor Rata-rata	9.4	2.6
Konsistensi	10.0	7.4
Biaya per hasil	3.417	0.779
Total Biaya	$0.513	$0.024
Tes benar
Tingkat lulus per percobaan	93.8%	35.4%
Tes tidak stabil	0	5
Total Run	48	48
Token output	1,521	17,930
Token penalaran	35,656	139,706
Waktu respons (rata-rata)	16.60s	71.44s
Waktu respons (maks)	40.61s	226.38s
Waktu respons (total)	149.36s	928.77s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor Rata-rata vs Waktu respons (rata-rata)

Total token output

Skor Rata-rata vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.52s	106	2,533
Qwen3.5-9B	4.0	7.2	55.6%	1		31.54s	2,410	10,913

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	9.0	10.0	100.0%	0		40.61s	432	9,281
Qwen3.5-9B	10.0	10.0	0.0%	0		0ms	0	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	9.9	10.0	100.0%	0		7.72s	279	3,904
Qwen3.5-9B	5.0	5.6	33.3%	1		87.31s	1,383	32,113

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	7.0	10.0	66.7%	0		32.73s	18	12,424
Qwen3.5-9B	10.0	7.2	22.2%	1		137.75s	11,549	48,475

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
Qwen3.5-9B	10.0	1.6	33.3%	1		226.38s	0	30,695

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
Qwen3.5-9B	5.5	5.8	66.7%	1		17.15s	599	4,517

Puzzle Solving	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
Qwen3.5-9B	10.0	10.0	0.0%	0		33.38s	1,545	11,844

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

Perbandingan Cepat

Ganti Pasangan Perbandingan

Qwen3.5-9BmediumvsMiMo-V2-Flashnone Qwen3.5-9BmediumvsGrok 4.1 Fastnone Mercury 2nonevsQwen3.5-9Bmedium Nemotron 3 Super 120b A12bnoneTersedia gratisvsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGLM 4.7 Flashnone GPT-4o-mininonevsQwen3.5-9Bmedium Kimi K2.5nonevsQwen3.5-9Bmedium Trinity Large PreviewnoneTersedia gratisvsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGrok 4.20 Betanone GPT-5.4nonevsQwen3.5-9Bmedium Hunter AlphanonevsQwen3.5-9Bmedium Gemini 3.1 Pro PreviewmediumvsGPT-5.2 Chatnone