AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs xAI: Grok 4.3

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-05-01

指標	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low リリース: 2026-03-03	Grok 4.3 Grok 4.3 medium リリース: 2026-05-01

指標	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low リリース: 2026-03-03	Grok 4.3 Grok 4.3 medium リリース: 2026-05-01
スコア	8.1	8.2
順位	#31	#20
信頼性	該当なし	10.0
一貫性	10.0	8.6
正解テスト
試行ごとの合格率	72.2%	81.5%
不安定なテスト	0	3
総実行回数	54	54
結果あたりのコスト	0.168	3.974
合計コスト	$0.022	$0.517
????	$0.250 / 1M	$1.250 / 1M
????	$1.500 / 1M	$2.500 / 1M
出力トークン	2,247	1,223
推論トークン	8,058	187,047
応答時間（平均）	3.22s	48.63s
応答時間（最大）	11.91s	216.69s
応答時間（合計）	58.00s	875.27s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0		2.12s	462	1,638
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.20s	630	372
Grok 4.3	10.0	10.0	100.0%	0		45.72s	284	9,659

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		11.91s	225	762
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.00s	291	696
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		2.36s	18	1,212
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		1.54s	69	384
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	72	753
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.76s	243	1,248
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	237	993
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

クイック比較

比較ペアを切り替え

Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGLM 5 Turbomedium Gemini 3.1 Flash Lite PreviewlowvsHY3 Previewmedium無料で利用可能 Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium HY3 Previewlow無料で利用可能vsGrok 4.3medium DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow