Perbandingan benchmark Grok 4.20 vs Grok 4.20 Beta vs Grok 4.3Grok 4.3 unggul pada Skor dengan 7.7. Grok 4.20 unggul pada Keandalan dengan 10.0. Grok 4.20 memiliki Total Biaya terendah di $0.609. Grok 4.20 Beta paling cepat di 9.75s.
Model yang direkomendasikan: Grok 4.20 Beta - It offers the best overall trade-off: a competitive score (6.8), faster response than model lain dalam perbandingan ini, and balanced cost.
Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-17
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
T/ASkor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
Konsistensi
8.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
8.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
8.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 6Tidak mengikuti instruksi: 2Format tambahan: 1Waktu respons (rata-rata)27.68sWaktu respons (maks)199.66sWaktu respons (total)581.26sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 1Waktu respons (rata-rata)9.75sWaktu respons (maks)31.36sWaktu respons (total)175.48sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 5Tidak mengikuti instruksi: 2Format tambahan: 1Waktu respons (rata-rata)47.51sWaktu respons (maks)216.69sWaktu respons (total)997.68sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tingkat lulus per percobaan
63.5%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
69.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
71.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
Tes tidak stabil
3Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
4Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Total Run
63Total Runโฆ
52Total Runโฆ
63Total Runโฆ
Biaya per hasil
8.309Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
4.505Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
4.724Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
Total Biaya
$0.609Total biaya (harga saat ini)โฆ
$0.750Total biaya (harga saat ini)โฆ
$0.614Total biaya (harga saat ini)โฆ
Harga input
$1.250 / 1MHarga inputโฆ
$5.805 / 1MHarga inputโฆ
$1.250 / 1MHarga inputโฆ
Harga output
$2.500 / 1MHarga outputโฆ
$5.805 / 1MHarga outputโฆ
$2.500 / 1MHarga outputโฆ
Total token input
44,433Total token inputโฆ
35,955Total token inputโฆ
44,472Total token inputโฆ
Token output
1,819Token outputโฆ
1,647Token outputโฆ
1,981Token outputโฆ
Token penalaran
219,524Token penalaranโฆ
91,565Token penalaranโฆ
221,382Token penalaranโฆ
Waktu respons (rata-rata)
27.68sWaktu respons (rata-rata)โฆ
9.75sWaktu respons (rata-rata)โฆ
47.51sWaktu respons (rata-rata)โฆ
Waktu respons (maks)
199.66sWaktu respons (maks)โฆ
31.36sWaktu respons (maks)โฆ
216.69sWaktu respons (maks)โฆ
Waktu respons (total)
581.26sWaktu respons (total)โฆ
175.48sWaktu respons (total)โฆ
997.68sWaktu respons (total)โฆ
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
7.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.95sWaktu respons (maks)5.68sWaktu respons (total)15.80sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
3.95sWaktu respons (rata-rata)โฆ
2,010Total token inputโฆ
287Token outputโฆ
8,312Token penalaranโฆ
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
8.7Skor rata-rata di semua tes benchmark.โฆ
7.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
91.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.16sWaktu respons (maks)3.44sWaktu respons (total)12.65sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)8.83sWaktu respons (maks)11.20sWaktu respons (total)35.31sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
6.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
55.6%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)109.93sWaktu respons (maks)199.66sWaktu respons (total)329.79sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
109.93sWaktu respons (rata-rata)โฆ
8,307Total token inputโฆ
268Token outputโฆ
103,150Token penalaranโฆ
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.3Skor rata-rata di semua tes benchmark.โฆ
3.3Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)31.36sWaktu respons (maks)31.36sWaktu respons (total)31.36sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
7.7Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Jawaban salah: 1Waktu respons (rata-rata)41.23sWaktu respons (maks)64.81sWaktu respons (total)123.69sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.40sWaktu respons (maks)17.40sWaktu respons (total)17.40sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
17.40sWaktu respons (rata-rata)โฆ
12,909Total token inputโฆ
232Token outputโฆ
9,556Token penalaranโฆ
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)20.93sWaktu respons (maks)20.93sWaktu respons (total)20.93sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)63.99sWaktu respons (maks)63.99sWaktu respons (total)63.99sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.17sWaktu respons (maks)5.02sWaktu respons (total)8.34sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
4.17sWaktu respons (rata-rata)โฆ
7,761Total token inputโฆ
180Token outputโฆ
5,333Token penalaranโฆ
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.01sWaktu respons (maks)4.27sWaktu respons (total)8.02sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)18.97sWaktu respons (maks)26.99sWaktu respons (total)37.93sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Jawaban salah: 1Waktu respons (rata-rata)27.03sWaktu respons (maks)29.87sWaktu respons (total)81.10sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
27.03sWaktu respons (rata-rata)โฆ
1,764Total token inputโฆ
375Token outputโฆ
49,339Token penalaranโฆ
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
5.3Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)21.33sWaktu respons (maks)24.21sWaktu respons (total)64.00sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)181.74sWaktu respons (maks)216.69sWaktu respons (total)545.21sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
2.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)24.48sWaktu respons (maks)24.48sWaktu respons (total)24.48sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
24.48sWaktu respons (rata-rata)โฆ
825Total token inputโฆ
65Token outputโฆ
6,440Token penalaranโฆ
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.78sWaktu respons (maks)5.78sWaktu respons (total)5.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
2.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)24.70sWaktu respons (maks)24.70sWaktu respons (total)24.70sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.26sWaktu respons (maks)4.46sWaktu respons (total)8.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
4.26sWaktu respons (rata-rata)โฆ
1,362Total token inputโฆ
57Token outputโฆ
6,419Token penalaranโฆ
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
9.8Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.89sWaktu respons (maks)5.89sWaktu respons (total)9.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)18.58sWaktu respons (maks)31.48sWaktu respons (total)37.15sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)6.22sWaktu respons (maks)11.63sWaktu respons (total)18.66sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
6.22sWaktu respons (rata-rata)โฆ
1,689Total token inputโฆ
149Token outputโฆ
7,913Token penalaranโฆ
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.52sWaktu respons (maks)4.53sWaktu respons (total)10.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
55.6%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)22.52sWaktu respons (maks)51.75sWaktu respons (total)67.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)13.68sWaktu respons (maks)13.68sWaktu respons (total)13.68sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
13.68sWaktu respons (rata-rata)โฆ
7,275Total token inputโฆ
197Token outputโฆ
6,620Token penalaranโฆ
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)12.39sWaktu respons (maks)12.39sWaktu respons (total)12.39sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.66sWaktu respons (maks)17.66sWaktu respons (total)17.66sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)63.48sWaktu respons (maks)63.48sWaktu respons (total)63.48sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
63.48sWaktu respons (rata-rata)โฆ
531Total token inputโฆ
9Token outputโฆ
16,442Token penalaranโฆ
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
0.0Skor rata-rata di semua tes benchmark.โฆ
0.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)44.47sWaktu respons (maks)44.47sWaktu respons (total)44.47sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ