AI BENCHY Compare

Mistral: Mistral Small 4 vs xAI: Grok 4.20

概要

Mistral Small 4 vs Grok 4.20 の benchmark 比較: Mistral Small 4 が平均スコアでリードし、5.1 vs 4.4 です。 Mistral Small 4 の benchmark コストが低く、$0.007 vs $0.057 です。 Mistral Small 4 の方が高速で、630ms vs 1.11s です、成功率は 27.0% vs 28.6% です。

おすすめモデル: Mistral Small 4 - ここでは最高スコア（5.1）で、Grok 4.20 より約 8.2 倍低コストです。

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-07-02

指標	Mistral Small 4 Mistral Small 4 none リリース: 2026-03-16	Grok 4.20 Grok 4.20 none リリース: 2026-03-31

指標	Mistral Small 4 Mistral Small 4 none リリース: 2026-03-16	Grok 4.20 Grok 4.20 none リリース: 2026-03-31
スコア	5.1	4.4
順位	#134	#160
信頼性	10.0	該当なし
一貫性	9.5	8.5
正解テスト
試行ごとの合格率	27.0%	28.6%
不安定なテスト	1	0
総実行回数	63	54
結果あたりのコスト	0.139	1.570
合計コスト	$0.007	$0.057
入力価格	$0.150 / 1M	$1.250 / 1M
出力価格	$0.600 / 1M	$2.500 / 1M
合計入力トークン	37,309	41,313
出力トークン	2,201	1,923
推論トークン	0	0
応答時間（平均）	630ms	1.11s
応答時間（最大）	1.72s	6.04s
応答時間（合計）	13.22s	19.96s

生成ショーケース

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#134 Mistral Small 4

none

コスト: $0.002
時間: 10.4s
トークン: 2,370 tok

#160 xAI: Grok 4.20

none

コスト: $0.004
時間: 6.5s
トークン: 1,367 tok

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Mistral Small 4	3.4	7.9	16.7%	1		395ms	708	182	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	1,986	267	0

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Mistral Small 4	3.7	9.7	0.0%	0		901ms	7,636	619	0
Grok 4.20	1.1	3.1	0.0%	0		1.22s	1,074	312	0

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	11,640	496	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	17,673	282	0

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Mistral Small 4	10.0	10.0	100.0%	0		822ms	7,914	261	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	7,749	207	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Mistral Small 4	5.3	10.0	33.3%	0		367ms	798	28	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	1,746	325	0

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Mistral Small 4	4.0	10.0	0.0%	0		729ms	519	205	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	819	83	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Mistral Small 4	6.5	10.0	50.0%	0		380ms	729	69	0
Grok 4.20	6.3	10.0	50.0%	0		445ms	1,350	60	0

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Mistral Small 4	3.1	9.9	0.0%	0		399ms	735	111	0
Grok 4.20	5.3	10.0	33.3%	0		473ms	1,671	198	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	6,420	213	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	7,245	189	0

雑学	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	入力トークン	出力トークン	推論トークン
Mistral Small 4	3.0	10.0	0.0%	0		397ms	210	17	0
Grok 4.20	0.0	0.0	0.0%	0		0ms	0	0	0

クイック比較

比較ペアを切り替え

MiniMax M2.7mediumvsMistral Small 4none Grok 4.20nonevsGLM 4.7 Flashmedium CobuddymediumvsMistral Small 4none Qwen3 Coder NextmediumvsGrok 4.20none MiniMax M2.5mediumvsGrok 4.20none MiniMax M2.5mediumvsMistral Small 4none Mistral Small 4nonevsQwen3 Coder Nextmedium CobuddymediumvsGrok 4.20none Qwen3.5-9BmediumvsGrok 4.20none North Mini Codemedium無料で利用可能vsMistral Small 4none Mistral Small 4mediumvsGrok 4.20none MiniMax M2.7mediumvsGrok 4.20none