AI BENCHY Compare

Google: Gemini 2.5 Flash vs xAI: Grok 4.20

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-06-01

指標	Gemini 2.5 Flash Gemini 2.5 Flash none リリース: 2025-06-17	Grok 4.20 Grok 4.20 medium リリース: 2026-03-31

指標	Gemini 2.5 Flash Gemini 2.5 Flash none リリース: 2025-06-17	Grok 4.20 Grok 4.20 medium リリース: 2026-03-31
スコア	6.4	7.0
順位	#95	#79
信頼性	10.0	10.0
一貫性	9.6	8.4
正解テスト
試行ごとの合格率	48.3%	63.3%
不安定なテスト	1	4
総実行回数	60	60
結果あたりのコスト	0.159	7.616
合計コスト	$0.015	$0.450
入力価格	$0.300 / 1M	$1.250 / 1M
出力価格	$2.500 / 1M	$2.500 / 1M
出力トークン	1,764	1,816
推論トークン	0	157,251
応答時間（平均）	889ms	19.08s
応答時間（最大）	4.39s	105.80s
応答時間（合計）	17.79s	381.60s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 2.5 Flash	3.0	10.0	0.0%	0		582ms	102	0
Grok 4.20	8.2	7.9	83.3%	1		3.95s	287	8,312

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 2.5 Flash	6.8	10.0	50.0%	0		810ms	477	0
Grok 4.20	4.1	1.8	50.0%	2		65.07s	265	40,877

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 2.5 Flash	3.0	10.0	0.0%	0		4.39s	366	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	232	9,556

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 2.5 Flash	10.0	10.0	100.0%	0		652ms	279	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	180	5,333

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 2.5 Flash	5.9	7.2	55.6%	1		495ms	12	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	375	49,339

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 2.5 Flash	5.0	10.0	0.0%	0		615ms	78	0
Grok 4.20	3.9	2.6	33.3%	1		24.48s	65	6,440

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 2.5 Flash	10.0	10.0	100.0%	0		590ms	72	0
Grok 4.20	9.8	10.0	100.0%	0		4.26s	57	6,419

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 2.5 Flash	7.7	10.0	66.7%	0		604ms	132	0
Grok 4.20	7.7	10.0	66.7%	0		6.22s	149	7,913

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 2.5 Flash	10.0	10.0	100.0%	0		1.91s	234	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	197	6,620

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 2.5 Flash	3.0	10.0	0.0%	0		1.15s	12	0
Grok 4.20	3.0	10.0	0.0%	0		63.48s	9	16,442

クイック比較

比較ペアを切り替え

DeepSeek V4 ProhighvsGemini 2.5 Flashnone Claude Sonnet 4.6nonevsGrok 4.20medium Qwen3.6 Max PreviewnonevsGrok 4.20medium Gemini 2.5 FlashnonevsMercury 2medium Step 3.7 FlashhighvsGrok 4.20medium Gemini 2.5 FlashnonevsQwen3.6 27Bmedium Ring-2.6-1TnonevsGrok 4.20medium Gemini 2.5 FlashnonevsGPT-5 Nanomedium Gemma 4 31Bnone無料で利用可能vsGrok 4.20medium Claude Opus 4.8nonevsGrok 4.20medium Gemini 2.5 FlashnonevsKimi K2.5medium Gemini 3.1 Flash LiteminimalvsGrok 4.20medium