比較対象モデル

Grok 4.20 (medium) vs Grok 4.20 Beta (medium) vs Grok 4.3 (medium) ベンチマーク比較: Grok 4.3 (medium) はスコアで 7.1 と首位です。 Grok 4.20 (medium) は信頼性で 10.0 と首位です。 Grok 4.20 Beta (medium) は合計コストが最も低く、$0.750 です。 Grok 4.20 Beta (medium) は 9.75s で最速です。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-08-01

順位: #90
合計出力トークン: 259,340
応答時間（平均）: 29.47s
合計コスト: $0.777

順位: #152
合計出力トークン: 93,212
応答時間（平均）: 9.75s
合計コスト: $0.750

順位: #88
合計出力トークン: 241,421
応答時間（平均）: 47.45s
合計コスト: $0.779

おすすめモデル Grok 4.20 (medium)

この比較で最も高いスコア（7.1）を出し、全 3 モデルの中でコストと応答時間のバランスも最良です。

詳細比較

指標	Grok 4.20 Grok 4.20 medium リリース: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium リリース: 2026-03-12	Grok 4.3 Grok 4.3 medium リリース: 2026-05-01

指標	Grok 4.20 Grok 4.20 medium リリース: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium リリース: 2026-03-12	Grok 4.3 Grok 4.3 medium リリース: 2026-05-01
スコア	7.1	6.0	7.1
順位	#90	#152	#88
信頼性	10.0	該当なし	10.0
一貫性	8.5	7.8	8.6
正解テスト
試行ごとの合格率	63.6%	66.7%	68.2%
不安定なテスト	4	1	4
総実行回数	66	52	66
結果あたりのコスト	9.709	4.505	5.990
合計コスト	$0.777	$0.750	$0.779
入力価格	$1.250 / 1M	$5.805 / 1M	$1.250 / 1M
出力価格	$2.500 / 1M	$5.805 / 1M	$2.500 / 1M
合計入力トークン	102,791	35,955	140,031
出力トークン	5,363	1,647	13,739
推論トークン	253,977	91,565	227,682
応答時間（平均）	29.47s	9.75s	47.45s
応答時間（最大）	199.66s	31.36s	216.69s
応答時間（合計）	648.35s	175.48s	1043.83s

モデル生成ショーケース

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#90 xAI: Grok 4.20

medium

コスト: $0.041
時間: 110.3s
トークン: 16,336 tok

#152 Grok 4.20 Beta

medium

コスト: $0.034
時間: 91.0s
トークン: 13,523 tok

#88 xAI: Grok 4.3

medium

コスト: $0.009
時間: 19.0s
トークン: 3,661 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

カテゴリ:

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20	8.2	7.9	83.3%	1	3.95s	2,010	287	8,312
Grok 4.20 Beta	8.7	7.9	91.7%	1	3.16s	2,010	268	7,583
Grok 4.3	10.0	10.0	100.0%	0	8.83s	2,010	88	8,207

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20	6.3	6.6	55.6%	1	109.93s	8,307	268	103,150
Grok 4.20 Beta	3.3	3.3	33.3%	0	31.36s	360	81	3,987
Grok 4.3	5.9	7.7	44.4%	1	41.23s	8,340	1,028	31,226

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20	8.7	6.9	83.3%	1	42.25s	71,267	3,776	44,009
Grok 4.20 Beta	5.0	5.0	50.0%	0	20.93s	12,909	227	12,212
Grok 4.3	6.5	10.0	50.0%	0	55.07s	108,468	11,992	21,601

データ解析と抽出	スコア	一貫性	試行ごとの合格率	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20	10.0	10.0	100.0%	4.17s	7,761	180	5,333
Grok 4.20 Beta	10.0	10.0	100.0%	4.01s	7,761	180	5,281
Grok 4.3	10.0	10.0	100.0%	18.97s	7,761	180	9,546

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20	5.3	10.0	33.3%	0	27.03s	1,764	375	49,339
Grok 4.20 Beta	5.3	10.0	33.3%	0	21.33s	1,764	251	40,255
Grok 4.3	5.3	7.2	44.4%	1	181.74s	1,764	14	111,300

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20	3.9	2.6	33.3%	1	24.48s	825	65	6,440
Grok 4.20 Beta	10.0	10.0	100.0%	0	5.78s	825	72	3,440
Grok 4.3	5.4	2.5	66.7%	1	24.70s	825	70	5,020

指示追従	スコア	一貫性	試行ごとの合格率	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20	9.8	10.0	100.0%	4.26s	1,362	57	6,419
Grok 4.20 Beta	9.8	10.0	100.0%	4.89s	1,362	57	7,123
Grok 4.3	9.8	10.0	100.0%	18.58s	1,362	57	8,713

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20	7.7	10.0	66.7%	0	6.22s	1,689	149	7,913
Grok 4.20 Beta	10.0	10.0	100.0%	0	3.52s	1,689	328	6,300
Grok 4.3	5.9	7.2	55.6%	1	22.52s	1,689	128	14,468

ツール呼び出し	スコア	一貫性	試行ごとの合格率	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20	3.0	10.0	0.0%	13.68s	7,275	197	6,620
Grok 4.20 Beta	3.0	10.0	0.0%	12.39s	7,275	183	5,384
Grok 4.3	10.0	10.0	100.0%	17.66s	7,263	168	4,615

雑学	スコア	一貫性	試行ごとの合格率	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20	3.0	10.0	0.0%	63.48s	531	9	16,442
Grok 4.20 Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.3	3.0	10.0	0.0%	44.47s	549	14	12,986

クイック比較

比較ペアを切り替え

Qwen3.7 PlusnonevsGrok 4.3medium Qwen3.7 PlusnonevsGrok 4.20medium KAT-Coder-Pro V2.5highvsGrok 4.3medium KAT-Coder-Pro V2.5highvsGrok 4.20medium Step 3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.3medium Gemini 3.5 FlashnonevsGrok 4.20medium Step 3.7 FlashlowvsGrok 4.20medium Qwen3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.20medium Gemini 3.5 FlashnonevsGrok 4.3medium Qwen3.7 FlashlowvsGrok 4.20medium