余分な書式失敗ランキング

AI BENCHY 失敗分析

どのAIモデルで余分な書式が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。並び替え: 失敗数 ↑.

表示モデル数

総失敗数

最も影響を受けたモデル

Qwen3.5-27B 1

カテゴリ

反AIトリックカテゴリで18 ドメイン特化カテゴリで13 コーディングカテゴリで11 データ解析と抽出カテゴリで4 パズル解決カテゴリで4 指示追従カテゴリで2 複合カテゴリで1

32/32

順位	モデル	企業	余分な書式件数	スコア	合計コスト	正解テスト	応答時間（平均）
#29	Qwen3.5-27B medium	Qwen	1	7.9	$0.536	13/21	68.4s
合計テスト数 21 誤答テスト数 8 合計コスト $0.536 応答時間（平均） 68.4s
#37	Grok 4.3 medium	X AI	1	7.7	$0.614	13/21	47.5s
合計テスト数 21 誤答テスト数 8 合計コスト $0.614 応答時間（平均） 47.5s
#40	MiniMax M3 medium	Minimax	1	7.6	$0.131	11/21	68.2s
合計テスト数 21 誤答テスト数 10 合計コスト $0.131 応答時間（平均） 68.2s
#41	DeepSeek V4 Pro high	DeepSeek	1	7.6	$0.157	9/21	77.2s
合計テスト数 21 誤答テスト数 12 合計コスト $0.157 応答時間（平均） 77.2s
#53	Grok 4.20 medium	X AI	1	7.3	$0.609	12/21	27.7s
合計テスト数 21 誤答テスト数 9 合計コスト $0.609 応答時間（平均） 27.7s
#58	DeepSeek V4 Pro none	DeepSeek	1	7.2	$0.034	10/21	6.41s
合計テスト数 21 誤答テスト数 11 合計コスト $0.034 応答時間（平均） 6.41s
#62	MiMo-V2-Flash medium	Xiaomi	1	7.1	$0.043	12/21	20.1s
合計テスト数 21 誤答テスト数 9 合計コスト $0.043 応答時間（平均） 20.1s
#64	GLM 5.1 medium	Z.ai	1	7.1	$0.292	12/21	33.7s
合計テスト数 21 誤答テスト数 9 合計コスト $0.292 応答時間（平均） 33.7s
#73	Mimo V2 Omni medium	Xiaomi	1	6.8	$0.683	10/21	41.2s
合計テスト数 21 誤答テスト数 11 合計コスト $0.683 応答時間（平均） 41.2s
#77	Mimo V2 PRO medium	Xiaomi	1	6.7	$0.333	12/21	22.2s
合計テスト数 21 誤答テスト数 9 合計コスト $0.333 応答時間（平均） 22.2s
#110	Owl Alpha none	Openrouter	1	5.8	$0.000	7/21	9.88s
合計テスト数 21 誤答テスト数 14 合計コスト $0.000 応答時間（平均） 9.88s
#114	Mimo V2 Omni none	Xiaomi	1	5.7	$0.021	8/21	2.44s
合計テスト数 21 誤答テスト数 13 合計コスト $0.021 応答時間（平均） 2.44s
#130	Qwen3 Coder Next none	Qwen	1	5.1	$0.009	5/21	8.62s
合計テスト数 21 誤答テスト数 16 合計コスト $0.009 応答時間（平均） 8.62s
#132	Hunter Alpha medium	OpenRouter	1	5.1	$0.000	8/18	10.3s
合計テスト数 18 誤答テスト数 10 合計コスト $0.000 応答時間（平均） 10.3s
#134	MiMo-V2.5 none	Xiaomi	1	5.1	$0.007	5/21	2.20s
合計テスト数 21 誤答テスト数 16 合計コスト $0.007 応答時間（平均） 2.20s

余分な書式の失敗

モデルを絞り込む

余分な書式件数上位モデル

余分な書式件数対スコア

応答時間（平均）上位モデル

余分な書式 の失敗

モデルを絞り込む

余分な書式 件数 上位モデル

余分な書式 件数 対 スコア

応答時間（平均） 上位モデル

余分な書式の失敗

余分な書式件数上位モデル

余分な書式件数対スコア

応答時間（平均）上位モデル