余分な書式失敗ランキング

AI BENCHY 失敗分析

どのAIモデルで余分な書式が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。並び替え: 合計コスト ↓.

表示モデル数

総失敗数

最も影響を受けたモデル

Grok 4.20 Multi Agent Beta 2

カテゴリ

反AIトリックカテゴリで18 ドメイン特化カテゴリで13 コーディングカテゴリで11 データ解析と抽出カテゴリで4 パズル解決カテゴリで4 指示追従カテゴリで2 複合カテゴリで1

32/32

順位	モデル	企業	余分な書式件数	スコア	合計コスト	正解テスト	応答時間（平均）
#136	Grok 4.20 Multi Agent Beta medium	X AI	2	5.0	$5.599	8/18	9.69s
合計テスト数 18 誤答テスト数 10 合計コスト $5.599 応答時間（平均） 9.69s
#38	Claude Opus 4.6 medium	Anthropic	5	7.7	$2.053	12/21	25.9s
合計テスト数 21 誤答テスト数 9 合計コスト $2.053 応答時間（平均） 25.9s
#31	Claude Sonnet 4.6 medium	Anthropic	3	7.8	$1.418	13/21	17.1s
合計テスト数 21 誤答テスト数 8 合計コスト $1.418 応答時間（平均） 17.1s
#42	Grok Build 0.1 medium	X AI	3	7.6	$0.927	13/21	49.9s
合計テスト数 21 誤答テスト数 8 合計コスト $0.927 応答時間（平均） 49.9s
#73	Mimo V2 Omni medium	Xiaomi	1	6.8	$0.683	10/21	41.2s
合計テスト数 21 誤答テスト数 11 合計コスト $0.683 応答時間（平均） 41.2s
#37	Grok 4.3 medium	X AI	1	7.7	$0.614	13/21	47.5s
合計テスト数 21 誤答テスト数 8 合計コスト $0.614 応答時間（平均） 47.5s
#53	Grok 4.20 medium	X AI	1	7.3	$0.609	12/21	27.7s
合計テスト数 21 誤答テスト数 9 合計コスト $0.609 応答時間（平均） 27.7s
#57	Claude Opus 4.8 none	Anthropic	3	7.2	$0.539	12/21	3.47s
合計テスト数 21 誤答テスト数 9 合計コスト $0.539 応答時間（平均） 3.47s
#29	Qwen3.5-27B medium	Qwen	1	7.9	$0.536	13/21	68.4s
合計テスト数 21 誤答テスト数 8 合計コスト $0.536 応答時間（平均） 68.4s
#77	Mimo V2 PRO medium	Xiaomi	1	6.7	$0.333	12/21	22.2s
合計テスト数 21 誤答テスト数 9 合計コスト $0.333 応答時間（平均） 22.2s
#55	Claude Sonnet 4.6 none	Anthropic	4	7.3	$0.316	11/21	5.04s
合計テスト数 21 誤答テスト数 10 合計コスト $0.316 応答時間（平均） 5.04s
#64	GLM 5.1 medium	Z.ai	1	7.1	$0.292	12/21	33.7s
合計テスト数 21 誤答テスト数 9 合計コスト $0.292 応答時間（平均） 33.7s
#41	DeepSeek V4 Pro high	DeepSeek	1	7.6	$0.157	9/21	77.2s
合計テスト数 21 誤答テスト数 12 合計コスト $0.157 応答時間（平均） 77.2s
#40	MiniMax M3 medium	Minimax	1	7.6	$0.131	11/21	68.2s
合計テスト数 21 誤答テスト数 10 合計コスト $0.131 応答時間（平均） 68.2s
#51	MiMo-V2.5-Pro medium	Xiaomi	3	7.4	$0.106	12/21	26.1s
合計テスト数 21 誤答テスト数 9 合計コスト $0.106 応答時間（平均） 26.1s

余分な書式の失敗

モデルを絞り込む

余分な書式件数上位モデル

余分な書式件数対スコア

応答時間（平均）上位モデル

余分な書式 の失敗

モデルを絞り込む

余分な書式 件数 上位モデル

余分な書式 件数 対 スコア

応答時間（平均） 上位モデル

余分な書式の失敗

余分な書式件数上位モデル

余分な書式件数対スコア

応答時間（平均）上位モデル