#118

Grok 4.20

X AI Rilis: 2026-03-31 Diuji pada: 2026-05-06 14:16 x-ai/grok-4.20::none

(medium) (none)

Ringkasan

Grok 4.20 mendapat skor 5.4 di AI BENCHY dan berada di peringkat #118. Model ini memiliki reliabilitas T/A, tingkat keberhasilan 35.2%, total biaya $0.095, dan waktu respons rata-rata 1.11s.

Yang membuat Grok 4.20 unik: Model ini terasa cepat dibandingkan model serupa.

Catatan identitas

Grok 4.20 Beta adalah versi pratinjau dari Grok 4.20.

Skor

5.4

Konsistensi

9.5

Keandalan

T/A

Total biaya (harga saat ini)

$0.095

Total token output

1,967

Total token input

Harga input

$1.250 / 1M

Harga output

$2.500 / 1M

Tes benar

Tes Salah: 12

Tingkat lulus per percobaan: 35.2%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

1.11s

Waktu respons (maks): 6.04s

Waktu respons (total): 20.02s

Jawaban salah: 10 Format tambahan: 1 Pemanggilan alat tidak valid: 1

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#118 xAI: Grok 4.20

none

Biaya: $0.004
Waktu: 6.5s
Token: 1,367 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-05-06 14:16 Uji ulang	5.4	T/A	$0.057 ↓	Bandingkan
2026-05-06 14:16 Uji ulang	5.4	T/A	$0.095	Bandingkan
2026-05-06 14:16 Uji ulang	5.4	T/A	$0.095	Run saat ini
2026-05-06 14:16 Suite berubah	5.4	T/A	$0.095	Bandingkan
2026-04-11 01:44 Run pertama yang tercatat	5.2	T/A	$0.095	Bandingkan

Perbandingan run

Run	Skor	Konsistensi	Keandalan	Tes benar	Tes tidak stabil	Total token output	Total Biaya	Waktu respons (rata-rata)
2026-05-06 14:16 · Uji ulang	5.4	9.5	T/A	6/18	1	1,967	$0.095	1.11s
2026-05-06 14:16 · Uji ulang	5.4	9.5	T/A	6/18	1	1,967	$0.095	1.11s
Selisih	0.0	0.0		0	0	0	$0.000	0ms

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Grok 4.20nonevsQwen3.5-122B-A10Bnone Grok 4.20nonevsMiniMax M2.7medium Grok 4.20nonevsGPT-5.4 Mininone Grok 4.20nonevsQwen3.6 35B A3Bnone Grok 4.20nonevsLaguna XS 2.1noneTersedia gratis Grok 4.20nonevsMistral Small 4none Grok 4.20nonevsGemini 3.5 Flashhigh Grok 4.20nonevsGemini 3 Flash Previewmedium Grok 4.20nonevsNemotron 3 Ultra 550b A55bmediumTersedia gratis Grok 4.20nonevsGPT-5.5low

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	4.8	10.0
Pemrograman	3.4	9.3
Gabungan	3.0	10.0
Parsing dan ekstraksi data	10.0	10.0
Spesifik domain	3.0	10.0
Kecerdasan umum	4.8	10.0
Kepatuhan instruksi	6.3	10.0
Pemecahan teka-teki	5.3	7.2
Pemanggilan alat	10.0	10.0

Grok 4.20

Hamster playing table tennis

#118 xAI: Grok 4.20

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan