T/ASkor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
T/ASkor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
T/ASkor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
T/ASkor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
Konsistensi
9.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
7.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 3Jawaban salah: 3Waktu respons (rata-rata)9.81sWaktu respons (maks)31.36sWaktu respons (total)176.62sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.11sWaktu respons (maks)82.37sWaktu respons (total)217.93sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tingkat lulus per percobaan
74.1%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
57.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
64.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
Tes tidak stabil
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
6Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
6Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Total Run
52Total Runโฆ
52Total Runโฆ
54Total Runโฆ
18Total Runโฆ
Biaya per hasil
5.269Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
72.473Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
0.613Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
0.600Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
Total Biaya
$0.633Total Biayaโฆ
$5.074Total Biayaโฆ
$0.056Total Biayaโฆ
$0.108Total Biayaโฆ
Harga input
$0.000 / 1MHarga inputโฆ
$0.000 / 1MHarga inputโฆ
$0.200 / 1MHarga inputโฆ
$0.500 / 1MHarga inputโฆ
Harga output
$0.000 / 1MHarga outputโฆ
$0.000 / 1MHarga outputโฆ
$0.500 / 1MHarga outputโฆ
$3.000 / 1MHarga outputโฆ
Token output
1,568Token outputโฆ
299,034Token outputโฆ
2,010Token outputโฆ
655Token outputโฆ
Token penalaran
91,909Token penalaranโฆ
309,670Token penalaranโฆ
91,298Token penalaranโฆ
33,749Token penalaranโฆ
Waktu respons (rata-rata)
9.81sWaktu respons (rata-rata)โฆ
9.80sWaktu respons (rata-rata)โฆ
23.88sWaktu respons (rata-rata)โฆ
12.11sWaktu respons (rata-rata)โฆ
Waktu respons (maks)
31.36sWaktu respons (maks)โฆ
35.28sWaktu respons (maks)โฆ
121.79sWaktu respons (maks)โฆ
82.37sWaktu respons (maks)โฆ
Waktu respons (total)
176.62sWaktu respons (total)โฆ
156.75sWaktu respons (total)โฆ
262.66sWaktu respons (total)โฆ
217.93sWaktu respons (total)โฆ
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor vs Waktu respons (rata-rata)
Total token output
Skor vs Total token output
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
8.7Skor rata-rata di semua tes benchmark.โฆ
7.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
91.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.16sWaktu respons (maks)3.44sWaktu respons (total)12.65sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
3.16sWaktu respons (rata-rata)โฆ
268Token outputโฆ
7,583Token penalaranโฆ
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
6.9Skor rata-rata di semua tes benchmark.โฆ
5.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
75.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Jawaban salah: 1Waktu respons (rata-rata)3.46sWaktu respons (maks)4.38sWaktu respons (total)13.86sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
7.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
91.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.81sWaktu respons (maks)5.65sWaktu respons (total)7.62sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.26sWaktu respons (maks)5.01sWaktu respons (total)13.04sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
3.26sWaktu respons (rata-rata)โฆ
110Token outputโฆ
1,076Token penalaranโฆ
Pemrograman
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)31.36sWaktu respons (maks)31.36sWaktu respons (total)31.36sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
31.36sWaktu respons (rata-rata)โฆ
81Token outputโฆ
3,987Token penalaranโฆ
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)27.11sWaktu respons (maks)27.11sWaktu respons (total)27.11sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
1.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)23.58sWaktu respons (maks)23.58sWaktu respons (total)23.58sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)82.37sWaktu respons (maks)82.37sWaktu respons (total)82.37sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
82.37sWaktu respons (rata-rata)โฆ
144Token outputโฆ
16,257Token penalaranโฆ
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)20.93sWaktu respons (maks)20.93sWaktu respons (total)20.93sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
20.93sWaktu respons (rata-rata)โฆ
227Token outputโฆ
12,212Token penalaranโฆ
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)37.64sWaktu respons (maks)37.64sWaktu respons (total)37.64sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.58sWaktu respons (maks)23.58sWaktu respons (total)23.58sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
23.58sWaktu respons (rata-rata)โฆ
117Token outputโฆ
3,495Token penalaranโฆ
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.01sWaktu respons (maks)4.27sWaktu respons (total)8.02sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
4.01sWaktu respons (rata-rata)โฆ
180Token outputโฆ
5,281Token penalaranโฆ
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.54sWaktu respons (maks)7.51sWaktu respons (total)11.08sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.63sWaktu respons (maks)6.63sWaktu respons (total)6.63sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.62sWaktu respons (maks)8.37sWaktu respons (total)15.24sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
7.62sWaktu respons (rata-rata)โฆ
93Token outputโฆ
2,197Token penalaranโฆ
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
5.3Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)21.33sWaktu respons (maks)24.21sWaktu respons (total)64.00sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
21.33sWaktu respons (rata-rata)โฆ
251Token outputโฆ
40,255Token penalaranโฆ
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
2.9Skor rata-rata di semua tes benchmark.โฆ
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
11.1%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Format tambahan: 1Waktu respons (rata-rata)24.67sWaktu respons (maks)35.28sWaktu respons (total)74.02sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)121.79sWaktu respons (maks)121.79sWaktu respons (total)121.79sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.81sWaktu respons (maks)32.44sWaktu respons (total)44.43sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
14.81sWaktu respons (rata-rata)โฆ
4Token outputโฆ
7,228Token penalaranโฆ
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.78sWaktu respons (maks)5.78sWaktu respons (total)5.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
5.78sWaktu respons (rata-rata)โฆ
72Token outputโฆ
3,440Token penalaranโฆ
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
5.8Skor rata-rata di semua tes benchmark.โฆ
2.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)6.40sWaktu respons (maks)6.40sWaktu respons (total)6.40sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
9.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)16.25sWaktu respons (maks)16.25sWaktu respons (total)16.25sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.34sWaktu respons (maks)6.34sWaktu respons (total)6.34sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
6.34sWaktu respons (rata-rata)โฆ
24Token outputโฆ
635Token penalaranโฆ
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
8.3Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
50.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.97sWaktu respons (maks)6.05sWaktu respons (total)9.94sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
4.97sWaktu respons (rata-rata)โฆ
57Token outputโฆ
7,107Token penalaranโฆ
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
8.3Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
50.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.63sWaktu respons (maks)5.46sWaktu respons (total)9.26sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
50.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)5.30sWaktu respons (maks)5.30sWaktu respons (total)5.30sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.30sWaktu respons (maks)5.19sWaktu respons (total)8.59sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
4.30sWaktu respons (rata-rata)โฆ
24Token outputโฆ
903Token penalaranโฆ
Pemecahan teka-teki
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
8.2Skor rata-rata di semua tes benchmark.โฆ
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
88.9%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.85sWaktu respons (maks)4.53sWaktu respons (total)11.55sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
3.85sWaktu respons (rata-rata)โฆ
249Token outputโฆ
6,660Token penalaranโฆ
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
7.2Skor rata-rata di semua tes benchmark.โฆ
5.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
77.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Waktu respons (rata-rata)5.01sWaktu respons (maks)5.49sWaktu respons (total)15.03sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)8.08sWaktu respons (maks)8.38sWaktu respons (total)16.17sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.86sWaktu respons (maks)7.59sWaktu respons (total)14.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
4.86sWaktu respons (rata-rata)โฆ
61Token outputโฆ
1,455Token penalaranโฆ
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Grok 4.20 BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)12.39sWaktu respons (maks)12.39sWaktu respons (total)12.39sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
12.39sWaktu respons (rata-rata)โฆ
183Token outputโฆ
5,384Token penalaranโฆ
Grok 4.20 Multi Agent BetaModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
1.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)27.71sWaktu respons (maks)27.71sWaktu respons (total)27.71sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.78sWaktu respons (maks)9.78sWaktu respons (total)9.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ