AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs xAI: Grok 4.20

Ringkasan

Grok 4.20 (medium) unggul dalam skor rata-rata dengan 7.3 vs 7.2. Claude Opus 4.8 memiliki biaya benchmark lebih rendah di $0.539 vs $0.609. Claude Opus 4.8 lebih cepat di 3.48s vs 27.68s, dengan tingkat keberhasilan 61.9% vs 63.5%.

Model yang direkomendasikanClaude Opus 4.8Its score stays close to the best score here (7.2 vs 7.3), while responding about 8.0x faster than Grok 4.20 (medium).

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-14

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Rilis: 2026-05-28	Grok 4.20 Grok 4.20 medium Rilis: 2026-03-31

Metrik	Claude Opus 4.8 Claude Opus 4.8 none Rilis: 2026-05-28	Grok 4.20 Grok 4.20 medium Rilis: 2026-03-31
Skor	7.2	7.3
Peringkat	#73	#69
Keandalan	10.0	10.0
Konsistensi	9.2	8.8
Tes benar
Tingkat lulus per percobaan	61.9%	63.5%
Tes tidak stabil	2	3
Total Run	63	63
Biaya per hasil	4.485	8.309
Total Biaya	$0.539	$0.609
Harga input	$5.000 / 1M	$1.250 / 1M
Harga output	$25.000 / 1M	$2.500 / 1M
Total token input	67,104	44,433
Token output	8,107	1,819
Token penalaran	0	219,524
Waktu respons (rata-rata)	3.48s	27.68s
Waktu respons (maks)	17.73s	199.66s
Waktu respons (total)	73.00s	581.26s

Showcase generasi

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#73 Claude Opus 4.8

none

Biaya: $0.053
Waktu: 22.0s
Token: 2,253 tok

#69 xAI: Grok 4.20

medium

Biaya: $0.041
Waktu: 110.3s
Token: 16,336 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Kategori:

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442

Perbandingan Cepat

Ganti Pasangan Perbandingan

Gemini 3 Flash PreviewlowvsGrok 4.20medium Claude Sonnet 4.6nonevsGrok 4.20medium Claude Opus 4.8nonevsGemma 4 26B A4BmediumTersedia gratis Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Opus 4.8nonevsGLM 5.1medium Claude Opus 4.8nonevsGemini 3 Flash Previewlow GPT-5.3 ChatnonevsGrok 4.20medium DeepSeek V4 PrononevsGrok 4.20medium Claude Opus 4.8nonevsLaguna XS 2.1mediumTersedia gratis Qwen3.7 PlusnonevsGrok 4.20medium Claude Opus 4.8nonevsMiMo-V2.5-Promedium Claude Opus 4.8nonevsSeed-2.0-Minimedium