#52

Grok 4.20

X AI Rilis: 2026-03-31 Diuji pada: 2026-04-11 01:44 x-ai/grok-4.20::medium

(medium) (none)

Ringkasan

Grok 4.20 mendapat skor 7.0 di AI BENCHY dan berada di peringkat #52. Model ini memiliki reliabilitas T/A, tingkat keberhasilan 66.7%, total biaya $0.743, dan waktu respons rata-rata 10.33s.

Catatan identitas

Grok 4.20 Beta adalah versi pratinjau dari Grok 4.20.

Skor

7.0

Konsistensi

7.8

Keandalan

T/A

Total biaya (harga saat ini)

$0.743

Total token output

111,626

Total token input

Harga input

$2.000 / 1M

Harga output

$6.000 / 1M

Tes benar

Tes Salah: 9

Tingkat lulus per percobaan: 66.7%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

10.33s

Waktu respons (maks): 29.87s

Waktu respons (total): 185.87s

Tidak mengikuti instruksi: 4 Jawaban salah: 3 Kesalahan API: 1 Format tambahan: 1

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#52 xAI: Grok 4.20

medium

Biaya: $0.041
Waktu: 110.3s
Token: 16,336 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-06-04 14:17 Tes baru ditambahkan	7.1	10.0	$0.609 ↓	Bandingkan
2026-05-22 00:32 Suite berubah	6.7	10.0	$0.832	Bandingkan
2026-05-08 15:32 Suite berubah	6.9	10.0	$0.756	Bandingkan
2026-04-11 01:44 Run pertama yang tercatat	7.0	T/A	$0.743	Run saat ini

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Grok 4.20mediumvsSeed-2.0-Minimedium Grok 4.20mediumvsGemini 3 Flash Previewlow Grok 4.20mediumvsDeepSeek V3.2medium Grok 4.20mediumvsGemini 3.5 Flashhigh Grok 4.20mediumvsGemini 3 Flash Previewmedium Grok 4.20mediumvsNemotron 3 Ultra 550b A55bmediumTersedia gratis Grok 4.20mediumvsGPT-5.5low

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	8.2	7.9
Pemrograman	4.3	1.1
Gabungan	10.0	10.0
Parsing dan ekstraksi data	10.0	10.0
Spesifik domain	5.3	10.0
Kecerdasan umum	5.8	2.8
Kepatuhan instruksi	7.3	5.9
Pemecahan teka-teki	6.4	7.7
Pemanggilan alat	3.0	10.0

Grok 4.20

Hamster playing table tennis

#52 xAI: Grok 4.20

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan