AI BENCHY Compare

Mistral: Mistral Small 4 vs xAI: Grok 4.20

Ringkasan

Perbandingan benchmark Mistral Small 4 vs Grok 4.20: Mistral Small 4 unggul dalam skor rata-rata dengan 5.1 vs 4.4. Mistral Small 4 memiliki biaya benchmark lebih rendah di $0.007 vs $0.057. Mistral Small 4 lebih cepat di 630ms vs 1.11s, dengan tingkat keberhasilan 27.0% vs 28.6%.

Model yang direkomendasikan: Mistral Small 4 - It has the best score here (5.1), while costing about 8.2x less than Grok 4.20.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-02

Metrik	Mistral Small 4 Mistral Small 4 none Rilis: 2026-03-16	Grok 4.20 Grok 4.20 none Rilis: 2026-03-31

Metrik	Mistral Small 4 Mistral Small 4 none Rilis: 2026-03-16	Grok 4.20 Grok 4.20 none Rilis: 2026-03-31
Skor	5.1	4.4
Peringkat	#134	#160
Keandalan	10.0	T/A
Konsistensi	9.5	8.5
Tes benar
Tingkat lulus per percobaan	27.0%	28.6%
Tes tidak stabil	1	0
Total Run	63	54
Biaya per hasil	0.139	1.570
Total Biaya	$0.007	$0.057
Harga input	$0.150 / 1M	$1.250 / 1M
Harga output	$0.600 / 1M	$2.500 / 1M
Total token input	37,309	41,313
Token output	2,201	1,923
Token penalaran	0	0
Waktu respons (rata-rata)	630ms	1.11s
Waktu respons (maks)	1.72s	6.04s
Waktu respons (total)	13.22s	19.96s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#134 Mistral Small 4

none

Biaya: $0.002
Waktu: 10.4s
Token: 2,370 tok

#160 xAI: Grok 4.20

none

Biaya: $0.004
Waktu: 6.5s
Token: 1,367 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mistral Small 4	3.4	7.9	16.7%	1		395ms	708	182	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	1,986	267	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mistral Small 4	3.7	9.7	0.0%	0		901ms	7,636	619	0
Grok 4.20	1.1	3.1	0.0%	0		1.22s	1,074	312	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	11,640	496	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	17,673	282	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mistral Small 4	10.0	10.0	100.0%	0		822ms	7,914	261	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	7,749	207	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mistral Small 4	5.3	10.0	33.3%	0		367ms	798	28	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	1,746	325	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mistral Small 4	4.0	10.0	0.0%	0		729ms	519	205	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	819	83	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mistral Small 4	6.5	10.0	50.0%	0		380ms	729	69	0
Grok 4.20	6.3	10.0	50.0%	0		445ms	1,350	60	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mistral Small 4	3.1	9.9	0.0%	0		399ms	735	111	0
Grok 4.20	5.3	10.0	33.3%	0		473ms	1,671	198	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	6,420	213	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	7,245	189	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mistral Small 4	3.0	10.0	0.0%	0		397ms	210	17	0
Grok 4.20	0.0	0.0	0.0%	0		0ms	0	0	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

MiniMax M2.7mediumvsMistral Small 4none Grok 4.20nonevsGLM 4.7 Flashmedium CobuddymediumvsMistral Small 4none Qwen3 Coder NextmediumvsGrok 4.20none MiniMax M2.5mediumvsGrok 4.20none MiniMax M2.5mediumvsMistral Small 4none Mistral Small 4nonevsQwen3 Coder Nextmedium CobuddymediumvsGrok 4.20none Qwen3.5-9BmediumvsGrok 4.20none North Mini CodemediumTersedia gratisvsMistral Small 4none Mistral Small 4mediumvsGrok 4.20none MiniMax M2.7mediumvsGrok 4.20none