コーディング x 余分な書式ランキング

AI BENCHY カテゴリ別失敗

コーディングで余分な書式が起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 応答時間（平均） ↑.

表示モデル数

総失敗数

最も影響を受けたモデル

Granite 4.1 8B 1

失敗理由

不正解230 API エラー43 タイムアウト23 回答なし18 指示に従っていない16 余分な書式12

カテゴリ

反AIトリック20 ドメイン特化13 コーディング12 パズル解決6 データ解析と抽出4 指示追従3 複合1

12/12

順位	モデル	企業	余分な書式件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 775ms
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
合計テスト数 3 誤答テスト数 3 合計コスト $0.021 応答時間（平均） 2.75s
#67	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
合計テスト数 3 誤答テスト数 2 合計コスト $0.316 応答時間（平均） 5.19s
#45	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
合計テスト数 3 誤答テスト数 2 合計コスト $1.270 応答時間（平均） 7.58s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
合計テスト数 3 誤答テスト数 2 合計コスト $2.053 応答時間（平均） 30.1s
#38	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
合計テスト数 3 誤答テスト数 2 合計コスト $1.418 応答時間（平均） 33.3s
#126	Owl Alpha none	Openrouter	1	5.6	$0.000	1/3	36.9s
合計テスト数 3 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 36.9s
#46	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
合計テスト数 3 誤答テスト数 2 合計コスト $0.614 応答時間（平均） 41.2s
#63	MiMo-V2.5-Pro medium	Xiaomi	1	6.2	$0.106	1/3	92.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.106 応答時間（平均） 92.1s
#53	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.927 応答時間（平均） 108.5s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.288 応答時間（平均） 109.6s
#51	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.131 応答時間（平均） 144.7s

モデルを絞り込む

余分な書式件数上位モデル

余分な書式件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

コーディング: 余分な書式

モデルを絞り込む

余分な書式 件数 上位モデル

余分な書式 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

余分な書式件数上位モデル

余分な書式件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル