AI BENCHY Compare

Mistral: Mistral Small 4 vs xAI: Grok 4.20 Beta

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-17

Metrik	Mistral Small 4 Mistral Small 4 none Rilis: 2026-03-16	Grok 4.20 Beta Grok 4.20 Beta none Rilis: 2026-03-12

Metrik	Mistral Small 4 Mistral Small 4 none Rilis: 2026-03-16	Grok 4.20 Beta Grok 4.20 Beta none Rilis: 2026-03-12
Peringkat	#61	#58
Skor	5.3	5.3
Konsistensi	9.5	9.1
Biaya per hasil	0.108	2.240
Total Biaya	$0.006	$0.090
Tes benar
Tingkat lulus per percobaan	33.3%	31.4%
Tes tidak stabil	1	2
Total Run	51	51
Token output	1,624	1,517
Token penalaran	0	0
Waktu respons (rata-rata)	629ms	1.19s
Waktu respons (maks)	1.72s	6.48s
Waktu respons (total)	10.70s	20.22s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0
Grok 4.20 Beta	4.0	8.4	16.7%	1		597ms	251	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0
Grok 4.20 Beta	3.0	10.0	0.0%	0		6.48s	282	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		601ms	197	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0
Grok 4.20 Beta	3.0	10.0	0.0%	0		611ms	160	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0
Grok 4.20 Beta	4.8	10.0	0.0%	0		687ms	60	0

Puzzle Solving	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Mistral Small 4	3.1	9.9	0.0%	0		589ms	170	0
Grok 4.20 Beta	5.9	7.2	55.6%	1		541ms	291	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Mistral Small 4mediumvsGrok 4.20 Betanone Mistral Small 4nonevsQwen3 Coder Nextmedium Qwen3 Coder NextmediumvsGrok 4.20 Betanone MiniMax M2.5mediumTersedia gratisvsGrok 4.20 Betanone Mistral Small 4nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumTersedia gratisvsMistral Small 4none Grok 4.20 BetanonevsGLM 4.7 Flashmedium gpt-oss-120bmediumTersedia gratisvsGrok 4.20 Betanone Mistral Small 4nonevsgpt-oss-120bmediumTersedia gratis Mistral Small 4nonevsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGrok 4.20 Betanone GPT-5 NanomediumvsGrok 4.20 Betanone