Perbandingan benchmark GPT-5.5 vs Grok 4.20 Multi Agent Beta: GPT-5.5 unggul dalam skor rata-rata dengan 9.3 vs 5.0. GPT-5.5 memiliki biaya benchmark lebih rendah di $0.907 vs $5.599. Grok 4.20 Multi Agent Beta lebih cepat di 9.69s vs 9.76s, dengan tingkat keberhasilan 85.7% vs 50.8%.
Model yang direkomendasikan: GPT-5.5 - It has the best score here (9.3), while costing about 6.2x less than Grok 4.20 Multi Agent Beta.
Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
T/ASkor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.…
Konsistensi
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
6.7Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)9.76sWaktu respons (maks)56.19sWaktu respons (total)204.92sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.41sWaktu respons (maks)6.32sWaktu respons (total)17.64sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.41sWaktu respons (rata-rata)…
606Total token input…
238Token output…
1,020Token penalaran…
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
6.9Skor rata-rata di semua tes benchmark.…
5.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
75.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Jawaban salah: 1Waktu respons (rata-rata)3.46sWaktu respons (maks)4.38sWaktu respons (total)13.86sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.04sWaktu respons (maks)21.06sWaktu respons (total)45.11sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
15.04sWaktu respons (rata-rata)…
7,302Total token input…
423Token output…
6,402Token penalaran…
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.3Skor rata-rata di semua tes benchmark.…
3.3Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)27.11sWaktu respons (maks)27.11sWaktu respons (total)27.11sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.56sWaktu respons (maks)9.56sWaktu respons (total)9.56sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.56sWaktu respons (rata-rata)…
11,019Total token input…
303Token output…
717Token penalaran…
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.28sWaktu respons (maks)5.13sWaktu respons (total)6.56sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.28sWaktu respons (rata-rata)…
7,140Total token input…
228Token output…
157Token penalaran…
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.54sWaktu respons (maks)7.51sWaktu respons (total)11.08sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)28.05sWaktu respons (maks)56.19sWaktu respons (total)84.16sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
28.05sWaktu respons (rata-rata)…
723Total token input…
69Token output…
11,609Token penalaran…
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
2.9Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
11.1%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Format tambahan: 1Waktu respons (rata-rata)24.67sWaktu respons (maks)35.28sWaktu respons (total)74.02sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.17sWaktu respons (maks)5.17sWaktu respons (total)5.17sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
5.17sWaktu respons (rata-rata)…
477Total token input…
133Token output…
245Token penalaran…
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
5.8Skor rata-rata di semua tes benchmark.…
2.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)6.40sWaktu respons (maks)6.40sWaktu respons (total)6.40sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.74sWaktu respons (maks)3.99sWaktu respons (total)7.48sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.74sWaktu respons (rata-rata)…
660Total token input…
93Token output…
415Token penalaran…
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
9.8Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.52sWaktu respons (maks)3.80sWaktu respons (total)7.04sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.74sWaktu respons (maks)5.61sWaktu respons (total)14.21sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.74sWaktu respons (rata-rata)…
642Total token input…
279Token output…
954Token penalaran…
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
6.7Skor rata-rata di semua tes benchmark.…
7.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
55.6%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)5.19sWaktu respons (maks)5.49sWaktu respons (total)15.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.96sWaktu respons (maks)4.96sWaktu respons (total)4.96sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.96sWaktu respons (rata-rata)…
5,445Total token input…
250Token output…
101Token penalaran…
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)10.06sWaktu respons (maks)10.06sWaktu respons (total)10.06sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
10.06sWaktu respons (rata-rata)…
195Total token input…
30Token output…
840Token penalaran…
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
0.0Skor rata-rata di semua tes benchmark.…
0.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…