余分な書式失敗ランキング

AI BENCHY 失敗分析

どのAIモデルで余分な書式が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。並び替え: 失敗数 ↑.

表示モデル数

総失敗数

最も影響を受けたモデル

カテゴリ

反AIトリックカテゴリで18 ドメイン特化カテゴリで13 コーディングカテゴリで11 データ解析と抽出カテゴリで4 パズル解決カテゴリで4 指示追従カテゴリで2 複合カテゴリで1

32/32

順位	モデル	企業	余分な書式件数	スコア	合計コスト	正解テスト	応答時間（平均）
#55	Claude Sonnet 4.6 none	Anthropic	4	7.3	$0.316	11/21	5.04s
合計テスト数 21 誤答テスト数 10 合計コスト $0.316 応答時間（平均） 5.04s
#38	Claude Opus 4.6 medium	Anthropic	5	7.7	$2.053	12/21	25.9s
合計テスト数 21 誤答テスト数 9 合計コスト $2.053 応答時間（平均） 25.9s

余分な書式の失敗