AI BENCHY Compare

Laguna M.1 vs xAI: Grok 4.20

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-04-29

Metrik	Laguna M.1 Laguna M.1 none Rilis: 2026-04-28 Tersedia gratis	Grok 4.20 Grok 4.20 none Rilis: 2026-03-31

Metrik	Laguna M.1 Laguna M.1 none Rilis: 2026-04-28 Tersedia gratis	Grok 4.20 Grok 4.20 none Rilis: 2026-03-31
Skor	5.1	5.2
Peringkat	#117	#108
Keandalan	9.9	T/A
Konsistensi	8.7	9.5
Tes benar
Tingkat lulus per percobaan	33.3%	29.6%
Tes tidak stabil	3	1
Total Run	54	54
Biaya per hasil	0.000	1.889
Total Biaya	$0.000	$0.095
Harga input	$0.000 / 1M	$2.000 / 1M
Harga output	$0.000 / 1M	$6.000 / 1M
Token output	2,870	1,967
Token penalaran	0	0
Waktu respons (rata-rata)	2.79s	1.11s
Waktu respons (maks)	15.42s	6.04s
Waktu respons (total)	50.24s	20.02s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Laguna M.1	3.4	7.9	16.7%	1		1.23s	485	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Laguna M.1	7.5	3.8	66.7%	1		2.93s	543	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	312	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Laguna M.1	3.0	10.0	0.0%	0		4.32s	622	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Laguna M.1	10.0	10.0	100.0%	0		3.37s	246	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Laguna M.1	3.6	7.2	22.2%	1		5.50s	33	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Laguna M.1	4.0	10.0	0.0%	0		3.08s	212	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Laguna M.1	6.3	10.0	50.0%	0		683ms	80	0
Grok 4.20	4.8	10.0	0.0%	0		455ms	60	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Laguna M.1	3.2	10.0	0.0%	0		951ms	340	0
Grok 4.20	5.3	7.4	44.4%	1		487ms	242	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Laguna M.1	10.0	10.0	100.0%	0		7.54s	309	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Nemotron 3 Nano Omni 30b A3b ReasoningmediumTersedia gratisvsGrok 4.20none Elephant AlphamediumvsGrok 4.20none MiniMax M2.7mediumvsGrok 4.20none Nemotron 3 Nano Omni 30b A3b ReasoningmediumTersedia gratisvsLaguna M.1noneTersedia gratis Elephant AlphamediumvsLaguna M.1noneTersedia gratis MiniMax M2.7mediumvsLaguna M.1noneTersedia gratis Laguna M.1noneTersedia gratisvsQwen3 Coder Nextmedium Mistral Small 4mediumvsGrok 4.20none Laguna M.1noneTersedia gratisvsGLM 4.7 Flashmedium MiniMax M2.5mediumTersedia gratisvsGrok 4.20none Qwen3 Coder NextmediumvsGrok 4.20none Mistral Small 4mediumvsLaguna M.1noneTersedia gratis