| 反AIトリック | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| Google: Gemini 3 Pro Preview | 10.00 | 10.00 | 100.0% | 0 | 143 | 1,107 | |
| xAI: Grok 4.1 Fast | 1.33 | 10.00 | 0.0% | 0 | 229 | 0 |
AI BENCHY Compare
Google: Gemini 3 Pro Preview vs xAI: Grok 4.1 Fast
モデル名:
ベンチマークは AI BENCHY テストスイートから次の日時に生成 : 2026-02-27 15:16
概要
| 指標 | Google: Gemini 3 Pro Preview medium リリース: リリース日不明 | xAI: Grok 4.1 Fast none リリース: リリース日不明 |
|---|---|---|
| 順位 | #3 | #38 |
| スコア | 8.64 | 3.00 |
| 一貫性 | 10.00 | 8.69 |
| 結果あたりのコスト | 0.947 | 0.176 |
| 合計コスト | $0.114 | $0.006 |
| 正解テスト | ||
| 誤答テスト数 | 2 | 11 |
| 試行ごとの合格率 | 85.7% | 28.6% |
| 不安定なテスト | 0 | 2 |
| 出力トークン | 1,100 | 931 |
| 推論トークン | 5,910 | 0 |
カテゴリ内訳
| データ解析と抽出 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| Google: Gemini 3 Pro Preview | 10.00 | 10.00 | 100.0% | 0 | 318 | 687 | |
| xAI: Grok 4.1 Fast | 10.00 | 10.00 | 100.0% | 0 | 180 | 0 |
| ドメイン特化 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| Google: Gemini 3 Pro Preview | 4.00 | 10.00 | 33.3% | 0 | 15 | 1,211 | |
| xAI: Grok 4.1 Fast | 4.00 | 7.21 | 55.6% | 1 | 15 | 0 |
| 指示追従 | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| Google: Gemini 3 Pro Preview | 9.50 | 10.00 | 100.0% | 0 | 69 | 754 | |
| xAI: Grok 4.1 Fast | 1.00 | 10.00 | 0.0% | 0 | 66 | 0 |
| Puzzle Solving | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| Google: Gemini 3 Pro Preview | 10.00 | 10.00 | 100.0% | 0 | 231 | 1,180 | |
| xAI: Grok 4.1 Fast | 1.00 | 9.48 | 0.0% | 0 | 233 | 0 |
| ツール呼び出し | スコア | 一貫性 | 試行ごとの合格率 | 不安定なテスト | 正解テスト | 出力トークン | 推論トークン |
|---|---|---|---|---|---|---|---|
| Google: Gemini 3 Pro Preview | 10.00 | 10.00 | 100.0% | 0 | 324 | 971 | |
| xAI: Grok 4.1 Fast | 1.00 | 1.62 | 33.3% | 1 | 208 | 0 |
比較ペアを切り替え
Google: Gemini 3 Pro Preview と比較...
- Google: Gemini 3 Flash Preview medium
- Google: Gemini 3.1 Pro Preview medium
- Qwen: Qwen3.5 Plus 2026-02-15 medium
- Qwen: Qwen3.5-27B medium
- Google: Gemini 3 Flash Preview low
- OpenAI: GPT-5.3-Codex medium
- Anthropic: Claude Sonnet 4.6 medium
- Z.ai: GLM 5 medium
- Google: Gemini 3 Flash Preview none
- StepFun: Step 3.5 Flash medium 無料で利用可能
- OpenAI: GPT-5.2 medium
- Qwen: Qwen3.5-122B-A10B medium
- Anthropic: Claude Sonnet 4.6 none
- Qwen: Qwen3.5 Plus 2026-02-15 none
- xAI: Grok 4.1 Fast medium
- MoonshotAI: Kimi K2.5 medium
- ByteDance Seed: Seed-2.0-Mini medium
- Z.ai: GLM 5 none
- Anthropic: Claude Opus 4.6 medium
- Xiaomi: MiMo-V2-Flash medium
- Qwen: Qwen3.5-35B-A3B medium
- OpenAI: GPT-5 Nano medium
- Qwen: Qwen3.5-Flash medium
- OpenAI: gpt-oss-120b medium 無料で利用可能
- MiniMax: MiniMax M2.5 medium
- Qwen: Qwen3.5-122B-A10B none
- OpenAI: GPT-4o-mini none
- Qwen: Qwen3.5-27B none
- Qwen: Qwen3.5-35B-A3B none
- Z.ai: GLM 4.7 Flash medium
- MoonshotAI: Kimi K2.5 none
- Qwen: Qwen3 Coder Next none
- Z.ai: GLM 4.7 Flash none
- Qwen: Qwen3.5-Flash none
- Qwen: Qwen3 Coder Next medium
- Xiaomi: MiMo-V2-Flash none
- xAI: Grok 4.1 Fast none
- LiquidAI: LFM2-24B-A2B none
xAI: Grok 4.1 Fast と比較...
- Google: Gemini 3 Flash Preview medium
- Google: Gemini 3.1 Pro Preview medium
- Google: Gemini 3 Pro Preview medium
- Qwen: Qwen3.5 Plus 2026-02-15 medium
- Qwen: Qwen3.5-27B medium
- Google: Gemini 3 Flash Preview low
- OpenAI: GPT-5.3-Codex medium
- Anthropic: Claude Sonnet 4.6 medium
- Z.ai: GLM 5 medium
- Google: Gemini 3 Flash Preview none
- StepFun: Step 3.5 Flash medium 無料で利用可能
- OpenAI: GPT-5.2 medium
- Qwen: Qwen3.5-122B-A10B medium
- Anthropic: Claude Sonnet 4.6 none
- Qwen: Qwen3.5 Plus 2026-02-15 none
- xAI: Grok 4.1 Fast medium
- MoonshotAI: Kimi K2.5 medium
- ByteDance Seed: Seed-2.0-Mini medium
- Z.ai: GLM 5 none
- Anthropic: Claude Opus 4.6 medium
- Xiaomi: MiMo-V2-Flash medium
- Qwen: Qwen3.5-35B-A3B medium
- OpenAI: GPT-5 Nano medium
- Qwen: Qwen3.5-Flash medium
- OpenAI: gpt-oss-120b medium 無料で利用可能
- MiniMax: MiniMax M2.5 medium
- Qwen: Qwen3.5-122B-A10B none
- OpenAI: GPT-4o-mini none
- Qwen: Qwen3.5-27B none
- Qwen: Qwen3.5-35B-A3B none
- Z.ai: GLM 4.7 Flash medium
- MoonshotAI: Kimi K2.5 none
- Qwen: Qwen3 Coder Next none
- Z.ai: GLM 4.7 Flash none
- Qwen: Qwen3.5-Flash none
- Qwen: Qwen3 Coder Next medium
- Xiaomi: MiMo-V2-Flash none
- LiquidAI: LFM2-24B-A2B none