余分な書式失敗ランキング

AI BENCHY 失敗分析

どのAIモデルで余分な書式が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。並び替え: 合計コスト ↑.

表示モデル数

総失敗数

最も影響を受けたモデル

カテゴリ

反AIトリックカテゴリで18 ドメイン特化カテゴリで13 コーディングカテゴリで11 データ解析と抽出カテゴリで4 パズル解決カテゴリで4 指示追従カテゴリで2 複合カテゴリで1

32/32

順位	モデル	企業	余分な書式件数	スコア	合計コスト	正解テスト	応答時間（平均）
#38	Claude Opus 4.6 medium	Anthropic	5	7.7	$2.053	12/21	25.9s
合計テスト数 21 誤答テスト数 9 合計コスト $2.053 応答時間（平均） 25.9s
#136	Grok 4.20 Multi Agent Beta medium	X AI	2	5.0	$5.599	8/18	9.69s
合計テスト数 18 誤答テスト数 10 合計コスト $5.599 応答時間（平均） 9.69s

余分な書式の失敗