余分な書式失敗ランキング

AI BENCHY 失敗分析

どのAIモデルで余分な書式が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。並び替え: 失敗数 ↑.

表示モデル数

総失敗数

最も影響を受けたモデル

Qwen3.5-27B 1

カテゴリ

反AIトリックカテゴリで18 ドメイン特化カテゴリで13 コーディングカテゴリで11 データ解析と抽出カテゴリで4 パズル解決カテゴリで4 指示追従カテゴリで2 複合カテゴリで1

32/32

順位	モデル	企業	余分な書式件数	スコア	合計コスト	正解テスト	応答時間（平均）
#155	Grok 4.20 none	X AI	1	4.4	$0.057	6/18	1.11s
合計テスト数 18 誤答テスト数 12 合計コスト $0.057 応答時間（平均） 1.11s
#158	Hy3 preview none	Tencent	1	4.3	$0.003	4/21	12.9s
合計テスト数 21 誤答テスト数 17 合計コスト $0.003 応答時間（平均） 12.9s
#159	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	4/21	2.76s
合計テスト数 21 誤答テスト数 17 合計コスト $0.025 応答時間（平均） 2.76s
#163	Granite 4.1 8B none	IBM Granite	1	4.0	$0.003	2/21	728ms
合計テスト数 21 誤答テスト数 19 合計コスト $0.003 応答時間（平均） 728ms
#165	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/21	82.2s
合計テスト数 21 誤答テスト数 18 合計コスト $0.036 応答時間（平均） 82.2s
#76	MiMo-V2.5 medium	Xiaomi	2	6.7	$0.063	12/21	27.1s
合計テスト数 21 誤答テスト数 9 合計コスト $0.063 応答時間（平均） 27.1s
#107	North Mini Code medium	Cohere	2	5.8	$0.000	9/21	106.2s
合計テスト数 21 誤答テスト数 12 合計コスト $0.000 応答時間（平均） 106.2s
#117	DeepSeek V4 Flash none	DeepSeek	2	5.5	$0.007	5/21	26.8s
合計テスト数 21 誤答テスト数 16 合計コスト $0.007 応答時間（平均） 26.8s
#126	DeepSeek V3.2 none	DeepSeek	2	5.3	$0.017	6/21	13.8s
合計テスト数 21 誤答テスト数 15 合計コスト $0.017 応答時間（平均） 13.8s
#131	North Mini Code none	Cohere	2	5.1	$0.000	4/21	29.8s
合計テスト数 21 誤答テスト数 17 合計コスト $0.000 応答時間（平均） 29.8s
#136	Grok 4.20 Multi Agent Beta medium	X AI	2	5.0	$5.599	8/18	9.69s
合計テスト数 18 誤答テスト数 10 合計コスト $5.599 応答時間（平均） 9.69s
#31	Claude Sonnet 4.6 medium	Anthropic	3	7.8	$1.418	13/21	17.1s
合計テスト数 21 誤答テスト数 8 合計コスト $1.418 応答時間（平均） 17.1s
#42	Grok Build 0.1 medium	X AI	3	7.6	$0.927	13/21	49.9s
合計テスト数 21 誤答テスト数 8 合計コスト $0.927 応答時間（平均） 49.9s
#51	MiMo-V2.5-Pro medium	Xiaomi	3	7.4	$0.106	12/21	26.1s
合計テスト数 21 誤答テスト数 9 合計コスト $0.106 応答時間（平均） 26.1s
#57	Claude Opus 4.8 none	Anthropic	3	7.2	$0.539	12/21	3.47s
合計テスト数 21 誤答テスト数 9 合計コスト $0.539 応答時間（平均） 3.47s

余分な書式の失敗

モデルを絞り込む

余分な書式件数上位モデル

余分な書式件数対スコア

応答時間（平均）上位モデル

余分な書式 の失敗

モデルを絞り込む

余分な書式 件数 上位モデル

余分な書式 件数 対 スコア

応答時間（平均） 上位モデル

余分な書式の失敗

余分な書式件数上位モデル

余分な書式件数対スコア

応答時間（平均）上位モデル