AI BENCHY 失敗分析
余分な書式 の失敗
どのAIモデルで 余分な書式 が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。 並び替え: 合計コスト ↑.
32/32
モデルを絞り込む
現在の検索条件とフィルターに一致するモデルはありません。
| 順位 | モデル | 企業 | 余分な書式 件数 | スコア | 合計コスト | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|---|
| #38 | Claude Opus 4.6 medium | Anthropic | 5 | 7.7 | $2.053 | 12/21 | 25.9s |
| #136 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 5.0 | $5.599 | 8/18 | 9.69s |