Google: Gemini 3.1 Flash Lite vs Qwen: Qwen3.6 35B A3B
Ringkasan
Perbandingan benchmark Gemini 3.1 Flash Lite vs Qwen3.6 35B A3B: Qwen3.6 35B A3B unggul dalam skor rata-rata dengan 6.7 vs 6.4. Gemini 3.1 Flash Lite memiliki biaya benchmark lebih rendah di $0.028 vs $0.146. Gemini 3.1 Flash Lite lebih cepat di 1.89s vs 18.08s, dengan tingkat keberhasilan 61.9% vs 63.5%.
Model yang direkomendasikan: Gemini 3.1 Flash Lite - Its score stays close to the best score here (6.4 vs 6.7), while costing about 5.3x less than Qwen3.6 35B A3B.
Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
Konsistensi
9.3Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
9.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Waktu respons (rata-rata)1.89sWaktu respons (maks)5.66sWaktu respons (total)39.62sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
6.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
75.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)1.84sWaktu respons (maks)3.08sWaktu respons (total)7.37sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.02sWaktu respons (maks)8.79sWaktu respons (total)24.07sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)1.53sWaktu respons (maks)1.97sWaktu respons (total)4.58sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)50.55sWaktu respons (maks)86.11sWaktu respons (total)151.65sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.48sWaktu respons (maks)4.48sWaktu respons (total)4.48sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.44sWaktu respons (maks)1.51sWaktu respons (total)2.89sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.99sWaktu respons (maks)13.75sWaktu respons (total)25.99sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)1.52sWaktu respons (maks)1.63sWaktu respons (total)4.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)22.50sWaktu respons (maks)45.02sWaktu respons (total)67.51sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.37sWaktu respons (maks)1.37sWaktu respons (total)1.37sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)8.66sWaktu respons (maks)8.66sWaktu respons (total)8.66sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.52sWaktu respons (maks)1.68sWaktu respons (total)3.04sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.50sWaktu respons (maks)10.22sWaktu respons (total)15.00sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.40sWaktu respons (maks)1.41sWaktu respons (total)4.20sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)5.95sWaktu respons (maks)8.42sWaktu respons (total)17.84sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.66sWaktu respons (maks)5.66sWaktu respons (total)5.66sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.46sWaktu respons (maks)1.46sWaktu respons (total)1.46sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)32.90sWaktu respons (maks)32.90sWaktu respons (total)32.90sTes dianggap lulus penuh hanya jika semua run-nya lulus.…