Perbandingan benchmark Gemini 3.5 Flash vs Grok 4.1 Fast: Gemini 3.5 Flash unggul dalam skor rata-rata dengan 9.8 vs 4.0. Grok 4.1 Fast memiliki biaya benchmark lebih rendah di $0.008 vs $1.115. Grok 4.1 Fast lebih cepat di 1.62s vs 8.84s, dengan tingkat keberhasilan 96.8% vs 20.6%.
Model yang direkomendasikan: Gemini 3.5 Flash - It has the strongest score in this comparison (9.8) and the best overall balance of cost and response time across all 2 models.
Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-02
Grok 4.1 FastGrok 4.1 FastnoneModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.Rilis: 2025-11-19
Skor
9.8Skor rata-rata di semua tes benchmark.…
4.0Skor rata-rata di semua tes benchmark.…
Peringkat
#1
#166
Keandalan
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
Konsistensi
9.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
7.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)8.84sWaktu respons (maks)34.82sWaktu respons (total)185.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 13Tidak mengikuti instruksi: 3Waktu respons (rata-rata)1.62sWaktu respons (maks)5.51sWaktu respons (total)19.48sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
96.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
20.6%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
3Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Total Run
63Total Run…
57Total Run…
Biaya per hasil
5.575Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
0.273Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$1.115Total biaya (harga saat ini)…
$0.008Total biaya (harga saat ini)…
Harga input
$1.500 / 1MHarga input…
$0.202 / 1MHarga input…
Harga output
$9.000 / 1MHarga output…
$0.202 / 1MHarga output…
Total token input
37,594Total token input…
36,608Total token input…
Token output
1,975Token output…
1,723Token output…
Token penalaran
115,638Token penalaran…
0Token penalaran…
Waktu respons (rata-rata)
8.84sWaktu respons (rata-rata)…
1.62sWaktu respons (rata-rata)…
Waktu respons (maks)
34.82sWaktu respons (maks)…
5.51sWaktu respons (maks)…
Waktu respons (total)
185.57sWaktu respons (total)…
19.48sWaktu respons (total)…
Showcase generasi
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#1 Gemini 3.5 Flash
high
Biaya
$0.208
Waktu
118.2s
Token
23,158 tok
#166 Grok 4.1 Fast
none
Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.57sWaktu respons (maks)3.60sWaktu respons (total)10.27sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.57sWaktu respons (rata-rata)…
492Total token input…
174Token output…
4,997Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.2Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.07sWaktu respons (maks)1.73sWaktu respons (total)2.15sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)22.96sWaktu respons (maks)34.82sWaktu respons (total)68.88sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
22.96sWaktu respons (rata-rata)…
8,118Total token input…
456Token output…
47,129Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
1.8Skor rata-rata di semua tes benchmark.…
1.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
11.1%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.79sWaktu respons (maks)1.79sWaktu respons (total)1.79sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)22.37sWaktu respons (maks)22.37sWaktu respons (total)22.37sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
22.37sWaktu respons (rata-rata)…
12,873Total token input…
351Token output…
16,323Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.33sWaktu respons (maks)3.33sWaktu respons (total)3.33sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.43sWaktu respons (maks)8.51sWaktu respons (total)12.87sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
6.43sWaktu respons (rata-rata)…
7,548Total token input…
279Token output…
8,466Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)943msWaktu respons (maks)943msWaktu respons (total)943msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
77.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)14.09sWaktu respons (maks)22.00sWaktu respons (total)42.27sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
14.09sWaktu respons (rata-rata)…
633Total token input…
12Token output…
24,721Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
5.9Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
55.6%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)1.06sWaktu respons (maks)1.06sWaktu respons (total)1.06sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.63sWaktu respons (maks)3.63sWaktu respons (total)3.63sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.63sWaktu respons (rata-rata)…
486Total token input…
115Token output…
1,650Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
4.4Skor rata-rata di semua tes benchmark.…
9.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.08sWaktu respons (maks)1.08sWaktu respons (total)1.08sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.35sWaktu respons (maks)3.42sWaktu respons (total)6.69sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.35sWaktu respons (rata-rata)…
615Total token input…
70Token output…
3,799Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)685msWaktu respons (maks)685msWaktu respons (total)685msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.23sWaktu respons (maks)3.68sWaktu respons (total)9.69sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.23sWaktu respons (rata-rata)…
558Total token input…
241Token output…
4,940Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.10sWaktu respons (maks)1.36sWaktu respons (total)2.21sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.96sWaktu respons (maks)4.96sWaktu respons (total)4.96sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.96sWaktu respons (rata-rata)…
6,115Total token input…
265Token output…
1,608Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
2.8Skor rata-rata di semua tes benchmark.…
1.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)5.51sWaktu respons (maks)5.51sWaktu respons (total)5.51sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.94sWaktu respons (maks)3.94sWaktu respons (total)3.94sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.94sWaktu respons (rata-rata)…
156Total token input…
12Token output…
2,005Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)731msWaktu respons (maks)731msWaktu respons (total)731msTes dianggap lulus penuh hanya jika semua run-nya lulus.…