AI BENCHY
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

#52

Grok 4.20 Beta

X AI ยท Rilis: 2026-03-12 ยท x-ai/grok-4.20-beta::none

Skor Rata-rata

4.4

Biaya per hasil

2.214

Konsistensi

9.1

Total Biaya

$0.089

Tes benar

Tes Salah: 12

Tingkat lulus per percobaan: 33.3%

Tes tidak stabil

2

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

1.22s

Waktu respons (maks): 6.48s

Waktu respons (total): 19.53s

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Total token output

Perbandingan Cepat

Rincian Kategori

Kategori Skor Rata-rata Konsistensi Tes benar
Trik anti-AI 3.3 7.9
Gabungan 10.0 10.0
Parsing dan ekstraksi data 9.9 10.0
Spesifik domain 10.0 10.0
Kecerdasan umum 5.0 10.0
Kepatuhan instruksi 4.5 10.0
Pemecahan teka-teki 4.0 7.2
Pemanggilan alat 10.0 10.0

Model yang Dibandingkan