AI BENCHY 失敗分析
余分な書式 の失敗
どのAIモデルで 余分な書式 が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: 失敗数 ↑.
32/32
モデルを絞り込む
現在の検索条件とフィルターに一致するモデルはありません。
| 順位 | モデル | 企業 | 余分な書式 件数 | スコア | 合計コスト | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|---|
| #155 | Grok 4.20 none | X AI | 1 | 4.4 | $0.057 | 6/18 | 1.11s |
| #158 | Hy3 preview none | Tencent | 1 | 4.3 | $0.003 | 4/21 | 12.9s |
| #159 | MiMo-V2-Flash none | Xiaomi | 1 | 4.3 | $0.025 | 4/21 | 2.76s |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 4.0 | $0.003 | 2/21 | 728ms |
| #165 | Qwen3.5-9B medium | Qwen | 1 | 3.8 | $0.036 | 3/21 | 82.2s |
| #76 | MiMo-V2.5 medium | Xiaomi | 2 | 6.7 | $0.063 | 12/21 | 27.1s |
| #107 | North Mini Code medium | Cohere | 2 | 5.8 | $0.000 | 9/21 | 106.2s |
| #117 | DeepSeek V4 Flash none | DeepSeek | 2 | 5.5 | $0.007 | 5/21 | 26.8s |
| #126 | DeepSeek V3.2 none | DeepSeek | 2 | 5.3 | $0.017 | 6/21 | 13.8s |
| #131 | North Mini Code none | Cohere | 2 | 5.1 | $0.000 | 4/21 | 29.8s |
| #136 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 5.0 | $5.599 | 8/18 | 9.69s |
| #31 | Claude Sonnet 4.6 medium | Anthropic | 3 | 7.8 | $1.418 | 13/21 | 17.1s |
| #42 | Grok Build 0.1 medium | X AI | 3 | 7.6 | $0.927 | 13/21 | 49.9s |
| #51 | MiMo-V2.5-Pro medium | Xiaomi | 3 | 7.4 | $0.106 | 12/21 | 26.1s |
| #57 | Claude Opus 4.8 none | Anthropic | 3 | 7.2 | $0.539 | 12/21 | 3.47s |