AI BENCHY Compare

Grok 4.20 Beta vs xAI: Grok 4.20

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-04-02

Metrik	Grok 4.20 Beta Grok 4.20 Beta none Rilis: 2026-03-12	Grok 4.20 Grok 4.20 none Rilis: 2026-03-31

Metrik	Grok 4.20 Beta Grok 4.20 Beta none Rilis: 2026-03-12	Grok 4.20 Grok 4.20 none Rilis: 2026-03-31
Skor	5.3	5.4
Peringkat	#70	#69
Konsistensi	9.1	9.5
Tes benar
Tingkat lulus per percobaan	31.4%	31.4%
Tes tidak stabil	2	1
Total Run	51	51
Biaya per hasil	2.240	1.809
Total Biaya	$0.090	$0.091
Harga input	$0.000 / 1M	$2.000 / 1M
Harga output	$0.000 / 1M	$6.000 / 1M
Token output	1,517	1,655
Token penalaran	0	0
Waktu respons (rata-rata)	1.19s	1.11s
Waktu respons (maks)	6.48s	6.04s
Waktu respons (total)	20.22s	18.80s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Grok 4.20 Beta	4.0	8.4	16.7%	1		597ms	251	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Grok 4.20 Beta	3.0	10.0	0.0%	0		6.48s	282	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Grok 4.20 Beta	10.0	10.0	100.0%	0		601ms	197	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Grok 4.20 Beta	3.0	10.0	0.0%	0		611ms	160	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Grok 4.20 Beta	4.8	10.0	0.0%	0		687ms	60	0
Grok 4.20	4.8	10.0	0.0%	0		455ms	60	0

Puzzle Solving	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Grok 4.20 Beta	5.9	7.2	55.6%	1		541ms	291	0
Grok 4.20	5.3	7.4	44.4%	1		487ms	242	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Mistral Small 4mediumvsGrok 4.20none Mistral Small 4mediumvsGrok 4.20 Betanone MiniMax M2.7mediumvsGrok 4.20 Betanone MiniMax M2.7mediumvsGrok 4.20none MiniMax M2.5mediumTersedia gratisvsGrok 4.20none Qwen3 Coder NextmediumvsGrok 4.20 Betanone MiniMax M2.5mediumTersedia gratisvsGrok 4.20 Betanone Qwen3 Coder NextmediumvsGrok 4.20none gpt-oss-120bmediumTersedia gratisvsGrok 4.20none Grok 4.20 BetanonevsGLM 4.7 Flashmedium gpt-oss-120bmediumTersedia gratisvsGrok 4.20 Betanone Grok 4.20nonevsGLM 4.7 Flashmedium