コーディング x タイムアウトランキング

AI BENCHY カテゴリ別失敗

コーディングでタイムアウトが起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

最も影響を受けたモデル

GLM 5.2 2

失敗理由

不正解230 API エラー43 タイムアウト25 回答なし18 指示に従っていない16 余分な書式12

カテゴリ

ドメイン特化37 コーディング25 パズル解決5 反AIトリック4 汎用知能4 複合2 データ解析と抽出1 指示追従1

22/22

順位	モデル	企業	タイムアウト件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#32	GLM 5.2 high	Z.ai	2	6.4	$0.554	1/3	73.0s
合計テスト数 3 誤答テスト数 2 合計コスト $0.554 応答時間（平均） 73.0s
#103	Gemma 4 31B medium	Google	2	4.3	$0.033	0/3	219.8s
合計テスト数 3 誤答テスト数 3 合計コスト $0.033 応答時間（平均） 219.8s
#177	GLM 4.7 Flash medium	Z.ai	2	3.2	$0.054	0/3	55.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.054 応答時間（平均） 55.3s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
合計テスト数 3 誤答テスト数 2 合計コスト $0.177 応答時間（平均） 108.6s
#44	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.888 応答時間（平均） 214.4s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.588 応答時間（平均） 114.5s
#52	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.131 応答時間（平均） 144.7s
#53	DeepSeek V4 Pro high	DeepSeek	1	6.1	$0.157	1/3	243.0s
合計テスト数 3 誤答テスト数 2 合計コスト $0.157 応答時間（平均） 243.0s
#56	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.348 応答時間（平均） 217.5s
#61	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.042	1/3	248.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.042 応答時間（平均） 248.7s
#63	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.044 応答時間（平均） 220.5s
#72	Gemma 4 26B A4B medium	Google	1	2.9	$0.045	0/3	272.5s
合計テスト数 3 誤答テスト数 3 合計コスト $0.045 応答時間（平均） 272.5s
#75	MiMo-V2-Flash medium	Xiaomi	1	6.0	$0.043	1/3	10.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.043 応答時間（平均） 10.7s
#77	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.288 応答時間（平均） 109.6s
#79	Kimi K2.7 Code medium	Moonshot AI	1	7.6	$0.581	2/3	146.7s
合計テスト数 3 誤答テスト数 1 合計コスト $0.581 応答時間（平均） 146.7s

モデルを絞り込む

タイムアウト件数上位モデル

タイムアウト件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

コーディング: タイムアウト

モデルを絞り込む

タイムアウト 件数 上位モデル

タイムアウト 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

タイムアウト件数上位モデル

タイムアウト件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル