Ringkasan
Grok Build 0.1 mendapat skor 6.6 di AI BENCHY dan berada di peringkat #82. Model ini memiliki reliabilitas 10.0, tingkat keberhasilan 60.4%, total biaya $0.547, dan waktu respons rata-rata 28.69s.
Yang membuat Grok Build 0.1 unik: Model ini paling menonjol di Pemrograman, dengan peringkat #1, sementara Gabungan adalah area terlemahnya di #13.
Model diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
6.6
Konsistensi
8.0
10.0
$0.547
Total token output
267,275
Total token input
0
Harga input
$1.000 / 1M
Harga output
$2.000 / 1M
Tes tidak stabil
4
Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).
Riwayat run
| Diuji pada | Skor | Keandalan | Tes benar | Total Biaya | Bandingkan |
|---|---|---|---|---|---|
| 2026-05-21 12:40 Uji ulang | 6.0 | 10.0 | $0.547 | Bandingkan | |
| 2026-05-21 12:40 Uji ulang | 6.6 | 10.0 | $0.547 | Run saat ini |
Perbandingan run
| Run | Skor | Konsistensi | Keandalan | Tes benar | Tes tidak stabil | Total token output | Total token input | Total Biaya | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|---|---|---|
| 2026-05-21 12:40 · Uji ulang | 6.6 | 8.0 | 10.0 | 7/16 | 4 | 267,275 | 0 | $0.547 | 28.69s |
| 2026-05-21 12:40 · Uji ulang | 6.0 | 8.3 | 10.0 | 7/19 | 4 | 267,275 | 11,793 | $0.547 | 28.69s |
| Selisih | +0.6 | -0.3 | 0.0 | +3 | 0 | 0 | -11793 | $0.000 | 0ms |
Grafik
Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor vs Waktu respons (rata-rata)
Total token output
Skor vs Total token output
Perbandingan Cepat
Rincian Kategori
| Kategori | Skor | Konsistensi | Tes benar |
|---|---|---|---|
| Trik anti-AI | 8.7 | 7.9 | |
| Pemrograman | 10.0 | 10.0 | |
| Gabungan | 0.0 | 0.0 | |
| Parsing dan ekstraksi data | 4.7 | 1.6 | |
| Spesifik domain | 3.6 | 7.2 | |
| Kecerdasan umum | 4.3 | 10.0 | |
| Kepatuhan instruksi | 9.8 | 10.0 | |
| Pemecahan teka-teki | 6.4 | 7.7 | |
| Pemanggilan alat | 0.0 | 0.0 | |
| Pengetahuan umum | 3.0 | 10.0 |