AI BENCHY Compare

Inception: Mercury 2 vs Mistral: Mistral Small 4

ベンチマークは AI BENCHY テストスイートから次の日時に生成: 2026-04-16

指標	Mercury 2 Mercury 2 none リリース: 2026-02-24	Mistral Small 4 Mistral Small 4 none リリース: 2026-03-16

指標	Mercury 2 Mercury 2 none リリース: 2026-02-24	Mistral Small 4 Mistral Small 4 none リリース: 2026-03-16
スコア	4.8	5.2
順位	#89	#81
一貫性	9.0	9.5
正解テスト
試行ごとの合格率	27.8%	31.5%
不安定なテスト	2	1
総実行回数	54	54
結果あたりのコスト	0.165	0.118
合計コスト	$0.007	$0.006
????	$0.250 / 1M	$0.150 / 1M
????	$0.750 / 1M	$0.600 / 1M
出力トークン	1,625	2,207
推論トークン	0	0
応答時間（平均）	613ms	665ms
応答時間（最大）	1.27s	1.72s
応答時間（合計）	11.04s	11.97s

スコア上位モデル

スコア vs 総コスト

応答時間（平均）

スコア vs 応答時間（平均）

合計出力トークン

スコア vs 合計出力トークン

カテゴリ内訳

反AIトリック	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Mercury 2	3.0	10.0	0.0%	0		483ms	286	0
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0

コーディング	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Mercury 2	3.6	8.9	0.0%	0		969ms	310	0
Mistral Small 4	4.5	9.0	0.0%	0		1.28s	583	0

複合	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Mercury 2	3.0	10.0	0.0%	0		606ms	131	0
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0

データ解析と抽出	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Mercury 2	7.3	5.9	83.3%	1		667ms	180	0
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0

ドメイン特化	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Mercury 2	5.3	7.2	44.4%	1		534ms	46	0
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0

汎用知能	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Mercury 2	4.8	10.0	0.0%	0		628ms	159	0
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0

指示追従	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Mercury 2	6.5	10.0	50.0%	0		551ms	82	0
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0

パズル解決	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Mercury 2	3.1	10.0	0.0%	0		533ms	234	0
Mistral Small 4	3.1	9.9	0.0%	0		589ms	170	0

ツール呼び出し	スコア	一貫性	試行ごとの合格率	不安定なテスト	正解テスト	応答時間（平均）	出力トークン	推論トークン
Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0

クイック比較

比較ペアを切り替え

Mistral Small 4nonevsElephantmedium MiniMax M2.7mediumvsMistral Small 4none Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Mercury 2nonevsQwen3.5-9Bmedium Mercury 2nonevsElephantmedium MiniMax M2.5medium無料で利用可能vsMistral Small 4none Mercury 2nonevsMiniMax M2.7medium Mistral Small 4nonevsQwen3 Coder Nextmedium Mistral Small 4nonevsGLM 4.7 Flashmedium Mistral Small 4nonevsgpt-oss-120bmedium無料で利用可能 Mistral Small 4nonevsQwen3.5-9Bmedium