#15

Grok 4.20 Beta

X AI Rilis: 2026-03-12 Diuji pada: 2026-05-06 14:15 x-ai/grok-4.20-beta::medium

(medium) (none)

Ringkasan

Grok 4.20 Beta mendapat skor 8.2 di AI BENCHY dan berada di peringkat #15. Model ini memiliki reliabilitas T/A, tingkat keberhasilan 79.6%, total biaya $0.633, dan waktu respons rata-rata 9.81s.

Yang membuat Grok 4.20 Beta unik: Total biaya benchmark-nya sangat rendah untuk kisaran skornya.

Model diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.

Catatan identitas

Grok 4.20 Beta adalah versi pratinjau dari xAI: Grok 4.20.

Skor

8.2

Konsistensi

9.1

Keandalan

T/A

Total biaya (harga saat ini)

$0.633

Total token output

93,477

Total token input

Harga input

$0.000 / 1M

Harga output

$0.000 / 1M

Tes benar

Tes Salah: 5

Tingkat lulus per percobaan: 79.6%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

9.81s

Waktu respons (maks): 31.36s

Waktu respons (total): 176.62s

Jawaban salah: 4 Tidak mengikuti instruksi: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#15 Grok 4.20 Beta

medium

Biaya: $0.034
Waktu: 91.0s
Token: 13,523 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-05-06 14:15 Uji ulang	6.0	T/A	$0.750 ↑	Bandingkan
2026-05-06 14:15 Uji ulang	8.5	T/A	$0.750 ↑	Bandingkan
2026-05-06 14:15 Uji ulang	8.2	T/A	$0.633	Bandingkan
2026-05-06 14:15 Uji ulang	8.2	T/A	$0.633	Run saat ini
2026-05-06 14:15 Suite berubah	8.2	T/A	$0.633	Bandingkan
2026-04-11 01:19 Run pertama yang tercatat	8.0	T/A	$0.633	Bandingkan

Perbandingan run

Run	Skor	Konsistensi	Keandalan	Tes benar	Tes tidak stabil	Total token output	Total Biaya	Waktu respons (rata-rata)
2026-05-06 14:15 · Uji ulang	8.2	9.1	T/A	13/18	2	93,477	$0.633	9.81s
2026-05-06 14:15 · Uji ulang	8.2	9.1	T/A	13/18	2	93,477	$0.633	9.81s
Selisih	0.0	0.0		0	0	0	$0.000	0ms

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	8.7	7.9
Pemrograman	10.0	10.0
Gabungan	10.0	10.0
Parsing dan ekstraksi data	10.0	10.0
Spesifik domain	5.3	10.0
Kecerdasan umum	10.0	10.0
Kepatuhan instruksi	9.8	10.0
Pemecahan teka-teki	8.2	7.2
Pemanggilan alat	3.0	10.0

Grok 4.20 Beta

Hamster playing table tennis

#15 Grok 4.20 Beta

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Model yang Dibandingkan