AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs xAI: Grok 4.3

Ringkasan

Perbandingan benchmark Claude Sonnet 4.6 vs Grok 4.3: Claude Sonnet 4.6 unggul dalam skor rata-rata dengan 7.8 vs 7.7. Grok 4.3 memiliki biaya benchmark lebih rendah di $0.614 vs $1.418. Claude Sonnet 4.6 lebih cepat di 17.06s vs 47.51s, dengan tingkat keberhasilan 65.1% vs 71.4%.

Model yang direkomendasikan: Grok 4.3 - Its score stays close to the best score here (7.7 vs 7.8), while costing about 2.3x less than Claude Sonnet 4.6.

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-06-12

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Rilis: 2026-02-17	Grok 4.3 Grok 4.3 medium Rilis: 2026-05-01

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Rilis: 2026-02-17	Grok 4.3 Grok 4.3 medium Rilis: 2026-05-01
Skor	7.8	7.7
Peringkat	#34	#40
Keandalan	10.0	10.0
Konsistensi	9.1	8.5
Tes benar
Tingkat lulus per percobaan	65.1%	71.4%
Tes tidak stabil	2	4
Total Run	63	63
Biaya per hasil	10.904	4.724
Total Biaya	$1.418	$0.614
Harga input	$3.000 / 1M	$1.250 / 1M
Harga output	$15.000 / 1M	$2.500 / 1M
Total token input	49,112	44,472
Token output	54,703	1,981
Token penalaran	29,970	221,382
Waktu respons (rata-rata)	17.06s	47.51s
Waktu respons (maks)	46.35s	216.69s
Waktu respons (total)	221.83s	997.68s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#34 Claude Sonnet 4.6

medium

Invalid SVG

Cost: $0.000
Time: 300.0s
Tokens: 0 tok

#40 xAI: Grok 4.3

medium

Cost: $0.009
Time: 19.0s
Tokens: 3,661 tok

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	789	1,046	1,093
Grok 4.3	10.0	10.0	100.0%	0		8.83s	2,010	88	8,207

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	5.7	6.6	44.4%	1		33.29s	6,995	16,089	3,686
Grok 4.3	5.9	7.7	44.4%	1		41.23s	8,340	1,028	31,226

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	18,351	5,871	3,962
Grok 4.3	10.0	10.0	100.0%	0		63.99s	12,909	234	15,301

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	8,676	649	742
Grok 4.3	10.0	10.0	100.0%	0		18.97s	7,761	180	9,546

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	471	25,790	16,919
Grok 4.3	5.3	7.2	44.4%	1		181.74s	1,764	14	111,300

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	564	256	433
Grok 4.3	5.4	2.5	66.7%	1		24.70s	825	70	5,020

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	792	318	552
Grok 4.3	9.8	10.0	100.0%	0		18.58s	1,362	57	8,713

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		5.31s	816	592	646
Grok 4.3	5.9	7.2	55.6%	1		22.52s	1,689	128	14,468

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	11,454	655	351
Grok 4.3	10.0	10.0	100.0%	0		17.66s	7,263	168	4,615

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token input	Token output	Token penalaran
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	204	3,437	1,586
Grok 4.3	3.0	10.0	0.0%	0		44.47s	549	14	12,986

Perbandingan Cepat

Ganti Pasangan Perbandingan

Step 3.7 FlashlowvsGrok 4.3medium Claude Sonnet 4.6mediumvsStep 3.7 Flashlow GPT-5.3 ChatnonevsGrok 4.3medium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGrok 4.3medium Claude Sonnet 4.6nonevsGrok 4.3medium Claude Sonnet 4.6mediumvsDeepSeek V4 Flashhigh Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Claude Opus 4.8nonevsGrok 4.3medium DeepSeek V4 FlashhighvsGrok 4.3medium Qwen3.7 PlusnonevsGrok 4.3medium Step 3.7 FlashhighvsGrok 4.3medium