#20

Grok 4.3

X AI Rilis: 2026-05-01 Diuji pada: 2026-05-01 00:40 x-ai/grok-4.3::medium

Ringkasan

Grok 4.3 mendapat skor 8.2 di AI BENCHY dan berada di peringkat #20. Model ini memiliki reliabilitas 10.0, tingkat keberhasilan 81.5%, total biaya $0.517, dan waktu respons rata-rata 48.63s.

Yang membuat Grok 4.3 unik: Total biaya benchmark-nya sangat rendah untuk kisaran skornya.

Skor

8.2

Konsistensi

8.6

Keandalan

10.0

Total biaya (harga saat ini)

$0.517

Total token output

188,270

Total token input

Harga input

$1.250 / 1M

Harga output

$2.500 / 1M

Tes benar

Tes Salah: 5

Tingkat lulus per percobaan: 81.5%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

48.63s

Waktu respons (maks): 216.69s

Waktu respons (total): 875.27s

Tidak mengikuti instruksi: 3 Jawaban salah: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#20 xAI: Grok 4.3

medium

Biaya: $0.009
Waktu: 19.0s
Token: 3,661 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-07-16 23:07 Tes baru ditambahkan	7.1	10.0	$0.779	Bandingkan
2026-06-04 14:11 Tes baru ditambahkan	7.6	10.0	$0.614	Bandingkan
2026-05-22 00:32 Uji ulang	7.8	10.0	$0.593	Bandingkan
2026-05-01 00:40 Run awal	8.2	10.0	$0.517	Run saat ini

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Grok 4.3mediumvsQwen3.5-122B-A10Bmedium Grok 4.3mediumvsGLM 5.1medium Grok 4.3mediumvsQwen3.7 Plusnone Grok 4.3mediumvsGrok 4.20medium Grok 4.3mediumvsQwen3.5 Plus 2026-04-20medium Grok 4.3mediumvsDeepSeek V3.2medium Grok 4.3mediumvsKAT-Coder-Pro V2.5high Grok 4.3mediumvsKimi K2.5medium Grok 4.3mediumvsKimi K2.6medium Grok 4.3mediumvsMercury 2medium

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	10.0	10.0
Pemrograman	10.0	10.0
Gabungan	10.0	10.0
Parsing dan ekstraksi data	10.0	10.0
Spesifik domain	5.3	7.2
Kecerdasan umum	5.4	2.5
Kepatuhan instruksi	9.8	10.0
Pemecahan teka-teki	5.9	7.2
Pemanggilan alat	10.0	10.0

Grok 4.3

Hamster playing table tennis

#20 xAI: Grok 4.3

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan