比較対象モデル

Grok 4.20 Beta (medium) vs Grok 4.20 Multi Agent Beta (medium) vs Grok 4.1 Fast (medium) vs Gemini 3 Flash Preview (medium) ベンチマーク比較: Gemini 3 Flash Preview (medium) はスコアで 9.6 と首位です。 Grok 4.1 Fast (medium) は信頼性で 10.0 と首位です。 Grok 4.1 Fast (medium) は合計コストが最も低く、$0.069 です。 Grok 4.20 Multi Agent Beta (medium) は 9.69s で最速です。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-07-28

順位: #147
合計出力トークン: 93,212
応答時間（平均）: 9.75s
合計コスト: $0.750

順位: #203
合計出力トークン: 600,042
応答時間（平均）: 9.69s
合計コスト: $5.599

順位: #207
合計出力トークン: 98,340
応答時間（平均）: 23.85s
合計コスト: $0.069

順位: #3
合計出力トークン: 232,650
応答時間（平均）: 19.20s
合計コスト: $0.742

おすすめモデル Gemini 3 Flash Preview (medium)

ここでは最高スコア（9.6）で、この比較の他のモデルより約 2.9 倍低コストです。

詳細比較

指標	Grok 4.20 Beta Grok 4.20 Beta medium リリース: 2026-03-12	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium リリース: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium リリース: 2025-11-19	Gemini 3 Flash Preview Gemini 3 Flash Preview medium リリース: 2025-12-17

指標	Grok 4.20 Beta Grok 4.20 Beta medium リリース: 2026-03-12	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium リリース: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium リリース: 2025-11-19	Gemini 3 Flash Preview Gemini 3 Flash Preview medium リリース: 2025-12-17
スコア	6.0	4.8	4.7	9.6
順位	#147	#203	#207	#3
信頼性	該当なし	該当なし	10.0	10.0
一貫性	7.8	6.4	6.3	9.7
正解テスト
試行ごとの合格率	66.7%	48.5%	53.0%	98.5%
不安定なテスト	1	5	6	1
総実行回数	52	52	57	66
結果あたりのコスト	4.505	62.923	0.642	3.533
合計コスト	$0.750	$5.599	$0.069	$0.742
入力価格	$5.805 / 1M	$4.235 / 1M	$0.484 / 1M	$0.500 / 1M
出力価格	$5.805 / 1M	$4.235 / 1M	$0.484 / 1M	$3.000 / 1M
合計入力トークン	35,955	721,952	42,845	87,861
出力トークン	1,647	294,668	2,006	5,486
推論トークン	91,565	305,374	96,334	227,164
応答時間（平均）	9.75s	9.69s	23.85s	19.20s
応答時間（最大）	31.36s	35.28s	121.79s	117.26s
応答時間（合計）	175.48s	155.07s	286.16s	422.42s

モデル生成ショーケース

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#147 Grok 4.20 Beta

medium

コスト: $0.034
時間: 91.0s
トークン: 13,523 tok

#203 Grok 4.20 Multi Agent Beta

medium

コスト: $0.261
時間: 123.4s
トークン: 199,344 tok

#207 Grok 4.1 Fast

medium

Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)

コスト: $0.000
時間: 0.1s
トークン: 0 tok

#3 Gemini 3 Flash Preview

medium

コスト: $0.010
時間: 18.4s
トークン: 3,351 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

カテゴリ:

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20 Beta	8.7	7.9	91.7%	1	3.16s	2,010	268	7,583
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2	3.46s	90,925	33,706	33,077
Grok 4.1 Fast	8.7	7.9	91.7%	1	3.81s	2,358	108	4,741
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	3.88s	494	330	3,216

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20 Beta	3.3	3.3	33.3%	0	31.36s	360	81	3,987
Grok 4.20 Multi Agent Beta	3.3	3.3	33.3%	0	27.11s	13,212	86	13,141
Grok 4.1 Fast	7.8	4.0	11.1%	1	23.58s	1,167	821	6,703
Gemini 3 Flash Preview	8.6	7.6	88.9%	1	84.40s	8,122	462	161,084

複合	スコア	一貫性	試行ごとの合格率	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20 Beta	5.0	5.0	50.0%	20.93s	12,909	227	12,212
Grok 4.20 Multi Agent Beta	1.5	5.0	0.0%	0ms	0	0	0
Grok 4.1 Fast	5.0	5.0	50.0%	37.64s	13,899	261	12,272
Gemini 3 Flash Preview	10.0	10.0	100.0%	26.75s	63,717	3,831	23,496

データ解析と抽出	スコア	一貫性	試行ごとの合格率	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20 Beta	10.0	10.0	100.0%	4.01s	7,761	180	5,281
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	5.54s	97,232	25,306	25,051
Grok 4.1 Fast	10.0	10.0	100.0%	6.63s	8,001	180	5,409
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.43s	7,548	279	4,893

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20 Beta	5.3	10.0	33.3%	0	21.33s	1,764	251	40,255
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1	24.67s	328,253	164,609	163,647
Grok 4.1 Fast	5.8	4.4	66.7%	2	121.79s	1,777	11	37,657
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	15.27s	633	12	21,684

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20 Beta	10.0	10.0	100.0%	0	5.78s	825	72	3,440
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1	6.40s	41,387	15,848	15,746
Grok 4.1 Fast	4.2	9.9	0.0%	0	16.25s	912	127	3,456
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	5.19s	486	72	1,905

指示追従	スコア	一貫性	試行ごとの合格率	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20 Beta	9.8	10.0	100.0%	4.89s	1,362	57	7,123
Grok 4.20 Multi Agent Beta	9.8	10.0	100.0%	3.52s	43,923	19,752	19,617
Grok 4.1 Fast	6.5	10.0	50.0%	4.63s	1,536	54	3,326
Gemini 3 Flash Preview	10.0	10.0	100.0%	4.04s	615	72	2,709

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20 Beta	10.0	10.0	100.0%	0	3.52s	1,689	328	6,300
Grok 4.20 Multi Agent Beta	6.7	7.9	55.6%	1	5.19s	107,020	35,361	35,095
Grok 4.1 Fast	5.3	7.2	44.4%	1	7.40s	1,950	169	5,904
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	4.05s	558	183	4,365

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20 Beta	3.0	10.0	0.0%	0	12.39s	7,275	183	5,384
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0	0ms	0	0	0
Grok 4.1 Fast	2.8	1.6	33.3%	1	27.71s	10,627	260	11,485
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	12.60s	5,532	234	1,487

雑学	スコア	一貫性	試行ごとの合格率	応答時間（平均）	入力トークン	出力トークン	推論トークン
Grok 4.20 Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.20 Multi Agent Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.1 Fast	3.0	10.0	0.0%	25.52s	618	15	5,381
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.50s	156	11	2,325

クイック比較

比較ペアを切り替え