#33

Grok 4.3

X AI Rilis: 2026-05-01 Diuji pada: 2026-05-22 00:32 x-ai/grok-4.3::medium

Ringkasan

Grok 4.3 mendapat skor 7.8 di AI BENCHY dan berada di peringkat #33. Model ini memiliki reliabilitas 10.0, tingkat keberhasilan 75.0%, total biaya $0.593, dan waktu respons rata-rata 49.23s.

Yang membuat Grok 4.3 unik: Model ini paling menonjol di Gabungan, dengan peringkat #1, sementara Pemrograman adalah area terlemahnya di #17.

Skor

7.8

Konsistensi

8.4

Keandalan

10.0

Total biaya (harga saat ini)

$0.593

Total token output

216,413

Total token input

Harga input

$1.250 / 1M

Harga output

$2.500 / 1M

Tes benar

Tes Salah: 7

Tingkat lulus per percobaan: 75.0%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

49.23s

Waktu respons (maks): 216.69s

Waktu respons (total): 984.54s

Jawaban salah: 4 Tidak mengikuti instruksi: 2 Format tambahan: 1

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#33 xAI: Grok 4.3

medium

Biaya: $0.009
Waktu: 19.0s
Token: 3,661 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-07-16 23:07 Tes baru ditambahkan	7.1	10.0	$0.779	Bandingkan
2026-06-04 14:11 Tes baru ditambahkan	7.6	10.0	$0.614	Bandingkan
2026-05-22 00:32 Uji ulang	7.8	10.0	$0.593	Run saat ini
2026-05-01 00:40 Run awal	8.2	10.0	$0.517	Bandingkan

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Grok 4.3mediumvsQwen3.5-122B-A10Bmedium Grok 4.3mediumvsGLM 5.1medium Grok 4.3mediumvsQwen3.7 Plusnone Grok 4.3mediumvsGrok 4.20medium Grok 4.3mediumvsQwen3.5 Plus 2026-04-20medium Grok 4.3mediumvsDeepSeek V3.2medium Grok 4.3mediumvsKAT-Coder-Pro V2.5high Grok 4.3mediumvsKimi K2.5medium Grok 4.3mediumvsKimi K2.6medium Grok 4.3mediumvsMercury 2medium

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	10.0	10.0
Pemrograman	7.4	6.5
Gabungan	10.0	10.0
Parsing dan ekstraksi data	10.0	10.0
Spesifik domain	5.3	7.2
Kecerdasan umum	5.4	2.5
Kepatuhan instruksi	9.8	10.0
Pemecahan teka-teki	5.9	7.2
Pemanggilan alat	10.0	10.0
Pengetahuan umum	3.0	10.0

Grok 4.3

Hamster playing table tennis

#33 xAI: Grok 4.3

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan