Perbandingan benchmark GPT-5.5 vs Grok 4.1 Fast: GPT-5.5 unggul dalam skor rata-rata dengan 9.3 vs 5.6. Grok 4.1 Fast memiliki biaya benchmark lebih rendah di $0.069 vs $0.907. GPT-5.5 lebih cepat di 9.76s vs 23.85s, dengan tingkat keberhasilan 85.7% vs 55.6%.
Model yang direkomendasikan: GPT-5.5 - It has the best score here (9.3), while responding about 2.4x faster than Grok 4.1 Fast.
Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-02
Grok 4.1 FastGrok 4.1 FastmediumModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.Rilis: 2025-11-19
Skor
9.3Skor rata-rata di semua tes benchmark.…
5.6Skor rata-rata di semua tes benchmark.…
Peringkat
#4
#119
Keandalan
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
Konsistensi
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
6.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)9.76sWaktu respons (maks)56.19sWaktu respons (total)204.92sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.41sWaktu respons (maks)6.32sWaktu respons (total)17.64sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.41sWaktu respons (rata-rata)…
606Total token input…
238Token output…
1,020Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
8.7Skor rata-rata di semua tes benchmark.…
7.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
91.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.81sWaktu respons (maks)5.65sWaktu respons (total)7.62sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.04sWaktu respons (maks)21.06sWaktu respons (total)45.11sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
15.04sWaktu respons (rata-rata)…
7,302Total token input…
423Token output…
6,402Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
7.8Skor rata-rata di semua tes benchmark.…
4.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
11.1%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)23.58sWaktu respons (maks)23.58sWaktu respons (total)23.58sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.56sWaktu respons (maks)9.56sWaktu respons (total)9.56sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.56sWaktu respons (rata-rata)…
11,019Total token input…
303Token output…
717Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)37.64sWaktu respons (maks)37.64sWaktu respons (total)37.64sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.28sWaktu respons (maks)5.13sWaktu respons (total)6.56sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.28sWaktu respons (rata-rata)…
7,140Total token input…
228Token output…
157Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.63sWaktu respons (maks)6.63sWaktu respons (total)6.63sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)28.05sWaktu respons (maks)56.19sWaktu respons (total)84.16sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
28.05sWaktu respons (rata-rata)…
723Total token input…
69Token output…
11,609Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
5.8Skor rata-rata di semua tes benchmark.…
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)121.79sWaktu respons (maks)121.79sWaktu respons (total)121.79sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.17sWaktu respons (maks)5.17sWaktu respons (total)5.17sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
5.17sWaktu respons (rata-rata)…
477Total token input…
133Token output…
245Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
4.2Skor rata-rata di semua tes benchmark.…
9.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)16.25sWaktu respons (maks)16.25sWaktu respons (total)16.25sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.74sWaktu respons (maks)3.99sWaktu respons (total)7.48sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.74sWaktu respons (rata-rata)…
660Total token input…
93Token output…
415Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
6.5Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
50.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.63sWaktu respons (maks)4.63sWaktu respons (total)4.63sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.74sWaktu respons (maks)5.61sWaktu respons (total)14.21sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.74sWaktu respons (rata-rata)…
642Total token input…
279Token output…
954Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
5.3Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)7.40sWaktu respons (maks)7.79sWaktu respons (total)14.81sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.96sWaktu respons (maks)4.96sWaktu respons (total)4.96sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.96sWaktu respons (rata-rata)…
5,445Total token input…
250Token output…
101Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
2.8Skor rata-rata di semua tes benchmark.…
1.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)27.71sWaktu respons (maks)27.71sWaktu respons (total)27.71sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)10.06sWaktu respons (maks)10.06sWaktu respons (total)10.06sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.06sWaktu respons (rata-rata)…
195Total token input…
30Token output…
840Token penalaran…
Grok 4.1 FastModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)25.52sWaktu respons (maks)25.52sWaktu respons (total)25.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.…