AI BENCHY Compare

Inception: Mercury 2 vs xAI: Grok 4.20

Ringkasan

Perbandingan benchmark Mercury 2 vs Grok 4.20: Mercury 2 unggul dalam skor rata-rata dengan 4.6 vs 4.4. Mercury 2 memiliki biaya benchmark lebih rendah di $0.011 vs $0.057. Mercury 2 lebih cepat di 653ms vs 1.11s, dengan tingkat keberhasilan 23.8% vs 28.6%.

Model yang direkomendasikan: Mercury 2 - It has the best score here (4.6), while costing about 5.5x less than Grok 4.20.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-18

Metrik	Mercury 2 Mercury 2 none Rilis: 2026-02-24	Grok 4.20 Grok 4.20 none Rilis: 2026-03-31

Metrik	Mercury 2 Mercury 2 none Rilis: 2026-02-24	Grok 4.20 Grok 4.20 none Rilis: 2026-03-31
Skor	4.6	4.4
Peringkat	#151	#155
Keandalan	10.0	T/A
Konsistensi	9.2	8.5
Tes benar
Tingkat lulus per percobaan	23.8%	28.6%
Tes tidak stabil	2	0
Total Run	63	54
Biaya per hasil	0.259	1.570
Total Biaya	$0.011	$0.057
Harga input	$0.250 / 1M	$1.250 / 1M
Harga output	$0.750 / 1M	$2.500 / 1M
Total token input	28,113	41,313
Token output	4,439	1,923
Token penalaran	0	0
Waktu respons (rata-rata)	653ms	1.11s
Waktu respons (maks)	1.43s	6.04s
Waktu respons (total)	13.72s	19.96s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#151 Mercury 2

none

Biaya: $0.002
Waktu: 1.8s
Token: 1,514 tok

#155 xAI: Grok 4.20

none

Biaya: $0.004
Waktu: 6.5s
Token: 1,367 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	1,986	267	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	3.4	9.6	0.0%	0		1.03s	7,229	3,088	0
Grok 4.20	1.1	3.1	0.0%	0		1.22s	1,074	312	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	17,673	282	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	7,749	207	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	1,746	325	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	819	83	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
Grok 4.20	6.3	10.0	50.0%	0		445ms	1,350	60	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
Grok 4.20	5.3	10.0	33.3%	0		473ms	1,671	198	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	7,245	189	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
Grok 4.20	0.0	0.0	0.0%	0		0ms	0	0	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Mercury 2nonevsQwen3 Coder Nextmedium Grok 4.20nonevsGLM 4.7 Flashmedium Mercury 2nonevsMiniMax M2.5medium CobuddymediumvsMercury 2none Qwen3 Coder NextmediumvsGrok 4.20none Mercury 2nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumvsGrok 4.20none Mercury 2nonevsMistral Small 4medium Mercury 2nonevsMiniMax M2.7medium CobuddymediumvsGrok 4.20none Qwen3.5-9BmediumvsGrok 4.20none Mistral Small 4mediumvsGrok 4.20none