#82

Grok Build 0.1

X AI Rilis: 2026-05-21 Diuji pada: 2026-05-21 12:40 x-ai/grok-build-0.1::none

(medium) (none)

Ringkasan

Grok Build 0.1 mendapat skor 6.6 di AI BENCHY dan berada di peringkat #82. Model ini memiliki reliabilitas 10.0, tingkat keberhasilan 60.4%, total biaya $0.547, dan waktu respons rata-rata 28.69s.

Yang membuat Grok Build 0.1 unik: Model ini paling menonjol di Pemrograman, dengan peringkat #1, sementara Gabungan adalah area terlemahnya di #13.

Model diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.

Skor

6.6

Konsistensi

8.0

Keandalan

10.0

Total biaya (harga saat ini)

$0.547

Total token output

267,275

Total token input

Harga input

$1.000 / 1M

Harga output

$2.000 / 1M

Tes benar

Tes Salah: 9

Tingkat lulus per percobaan: 60.4%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

28.69s

Waktu respons (maks): 138.35s

Waktu respons (total): 459.00s

Jawaban salah: 7 Tidak mengikuti instruksi: 2

Riwayat run

Diuji pada	Skor	Keandalan	Tes benar	Total Biaya	Bandingkan
2026-05-21 12:40 Uji ulang	6.0	10.0		$0.547	Bandingkan
2026-05-21 12:40 Uji ulang	6.6	10.0		$0.547	Run saat ini

Perbandingan run

Run	Skor	Konsistensi	Keandalan	Tes benar	Tes tidak stabil	Total token output	Total token input	Total Biaya	Waktu respons (rata-rata)
2026-05-21 12:40 · Uji ulang	6.6	8.0	10.0	7/16	4	267,275	0	$0.547	28.69s
2026-05-21 12:40 · Uji ulang	6.0	8.3	10.0	7/19	4	267,275	11,793	$0.547	28.69s
Selisih	+0.6	-0.3	0.0	+3	0	0	-11793	$0.000	0ms

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Grok Build 0.1nonevsGemini 3.5 Flashhigh Grok Build 0.1nonevsGemini 3 Flash Previewmedium Grok Build 0.1nonevsNemotron 3 Ultra 550b A55bmediumTersedia gratis Grok Build 0.1nonevsGPT-5.5low

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	8.7	7.9
Pemrograman	10.0	10.0
Gabungan	0.0	0.0
Parsing dan ekstraksi data	4.7	1.6
Spesifik domain	3.6	7.2
Kecerdasan umum	4.3	10.0
Kepatuhan instruksi	9.8	10.0
Pemecahan teka-teki	6.4	7.7
Pemanggilan alat	0.0	0.0
Pengetahuan umum	3.0	10.0

Grok Build 0.1

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Perbandingan Cepat

Rincian Kategori

Model yang Dibandingkan