AI BENCHY
Your ad here

#47

Grok 4.20 Multi-Agent Beta

X AI ยท Rilis: 2026-03-12 ยท x-ai/grok-4.20-multi-agent-beta::medium

Skor Rata-rata

4.9

Biaya per hasil

97.178

Konsistensi

7.1

Total Biaya

$4.859

Tes benar

Tes Salah: 11

Tingkat lulus per percobaan: 52.1%

Tes tidak stabil

6

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

9.08s

Waktu respons (maks): 35.28s

Waktu respons (total): 127.09s

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Total token output

Perbandingan Cepat

Rincian Kategori

Kategori Skor Rata-rata Konsistensi Tes benar
Trik anti-AI 4.0 4.4
Gabungan 10.0 10.0
Parsing dan ekstraksi data 9.9 10.0
Spesifik domain 10.0 7.2
Kecerdasan umum 4.0 2.8
Kepatuhan instruksi 9.0 10.0
Pemecahan teka-teki 6.3 5.1
Pemanggilan alat 10.0 10.0

Model yang Dibandingkan