#207

Grok 4.20 Beta

X AI Rilis: 2026-03-12 Diuji pada: 2026-05-06 14:15 x-ai/grok-4.20-beta::none

(medium) (none)

Ringkasan

Grok 4.20 Beta mendapat skor 4.4 di AI BENCHY dan berada di peringkat #207. Model ini memiliki reliabilitas T/A, tingkat keberhasilan 30.3%, total biaya $0.087, dan waktu respons rata-rata 1.19s.

Yang membuat Grok 4.20 Beta unik: Total biaya benchmark-nya sangat rendah untuk kisaran skornya. Model ini terasa cepat dibandingkan model serupa.

Model diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.

Catatan identitas

Grok 4.20 Beta adalah versi pratinjau dari xAI: Grok 4.20.

Skor

4.4

Konsistensi

7.9

Keandalan

T/A

Total biaya (harga saat ini)

$0.087 ↓ -4.8%

Diuji pada: $0.091

Total token output

1,657

Total token input

40,597

Harga input

$2.041 / 1M

Harga output

$2.041 / 1M

Tes benar

Tes Salah: 12

Tingkat lulus per percobaan: 30.3%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

1.19s

Waktu respons (maks): 6.48s

Waktu respons (total): 21.43s

Jawaban salah: 10 Tidak mengikuti instruksi: 1 Pemanggilan alat tidak valid: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#207 Grok 4.20 Beta

none

SVG tidak valid

Biaya: $0.004
Waktu: 8.5s
Token: 1,672 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-05-06 14:15 Uji ulang	4.4	T/A	$0.087 ↓	Run saat ini
2026-05-06 14:15 Uji ulang	5.8	T/A	$0.087 ↓	Bandingkan
2026-05-06 14:15 Uji ulang	5.5	T/A	$0.091	Bandingkan
2026-05-06 14:15 Uji ulang	5.5	T/A	$0.091	Bandingkan
2026-05-06 14:15 Suite berubah	5.5	T/A	$0.091	Bandingkan
2026-04-11 01:19 Run pertama yang tercatat	5.3	T/A	$0.091	Bandingkan

Riwayat harga

Data harga historis untuk model ini dari OpenRouter.

Tanggal	Harga input	Harga output
2026-06-04 15:40	$2.041 / 1M	$2.041 / 1M

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	4.0	8.4
Pemrograman	1.8	3.3
Gabungan	1.5	5.0
Parsing dan ekstraksi data	10.0	10.0
Spesifik domain	3.0	10.0
Kecerdasan umum	5.0	10.0
Kepatuhan instruksi	6.3	10.0
Pemecahan teka-teki	7.7	10.0
Pemanggilan alat	10.0	10.0
Pengetahuan umum	0.0	0.0

Grok 4.20 Beta

Hamster playing table tennis

#207 Grok 4.20 Beta

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Model yang Dibandingkan