#196

Grok 4.20 Multi Agent Beta

X AI Rilis: 2026-03-12 Diuji pada: 2026-05-06 14:16 x-ai/grok-4.20-multi-agent-beta::medium

Ringkasan

Grok 4.20 Multi Agent Beta mendapat skor 4.8 di AI BENCHY dan berada di peringkat #196. Model ini memiliki reliabilitas T/A, tingkat keberhasilan 48.5%, total biaya $5.599, dan waktu respons rata-rata 9.69s.

Yang membuat Grok 4.20 Multi Agent Beta unik: Model ini paling menonjol di Parsing dan ekstraksi data, dengan peringkat #1, sementara Pengetahuan umum adalah area terlemahnya di #13. Model ini memakai token reasoning yang sangat tinggi, yang bisa menjelaskan run yang lebih lambat atau lebih mahal.

Model diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.

Skor

4.8

Konsistensi

6.4

Keandalan

T/A

Total biaya (harga saat ini)

$5.599 ↑ +11.2%

Diuji pada: $5.034

Total token output

600,042

Total token input

721,952

Harga input

$4.235 / 1M

Harga output

$4.235 / 1M

Tes benar

Tes Salah: 10

Tingkat lulus per percobaan: 48.5%

Tes tidak stabil

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

9.69s

Waktu respons (maks): 35.28s

Waktu respons (total): 155.07s

Jawaban salah: 4 Kesalahan API: 2 Format tambahan: 2 Tidak mengikuti instruksi: 2

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#196 Grok 4.20 Multi Agent Beta

medium

Biaya: $0.261
Waktu: 123.4s
Token: 199,344 tok

Riwayat run

Diuji pada	Skor	Keandalan	Total Biaya	Bandingkan
2026-05-06 14:16 Uji ulang	4.8	T/A	$5.599 ↑	Run saat ini
2026-05-06 14:16 Uji ulang	6.6	T/A	$5.599 ↑	Bandingkan
2026-05-06 14:16 Uji ulang	6.6	T/A	$5.074	Bandingkan
2026-05-06 14:16 Suite berubah	6.6	T/A	$5.074	Bandingkan
2026-04-11 01:19 Run pertama yang tercatat	6.4	T/A	$5.074	Bandingkan

Riwayat harga

Data harga historis untuk model ini dari OpenRouter.

Tanggal	Harga input	Harga output
2026-06-04 15:40	$4.235 / 1M	$4.235 / 1M

Grafik

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Kategori	Skor	Konsistensi
Trik anti-AI	6.9	5.8
Pemrograman	3.3	3.3
Gabungan	1.5	5.0
Parsing dan ekstraksi data	10.0	10.0
Spesifik domain	2.9	7.2
Kecerdasan umum	5.8	2.8
Kepatuhan instruksi	9.8	10.0
Pemecahan teka-teki	6.7	7.9
Pemanggilan alat	3.0	10.0
Pengetahuan umum	0.0	0.0

Grok 4.20 Multi Agent Beta

Hamster playing table tennis

#196 Grok 4.20 Multi Agent Beta

Grafik

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Model yang Dibandingkan