コーディング x タイムアウトランキング

AI BENCHY カテゴリ別失敗

コーディングでタイムアウトが起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 応答時間（平均） ↓.

表示モデル数

総失敗数

最も影響を受けたモデル

Gemma 4 26B A4B 1

失敗理由

不正解230 API エラー43 タイムアウト25 回答なし18 指示に従っていない16 余分な書式12

カテゴリ

ドメイン特化37 コーディング25 パズル解決5 反AIトリック4 汎用知能4 複合2 データ解析と抽出1 指示追従1

22/22

順位	モデル	企業	タイムアウト件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#72	Gemma 4 26B A4B medium	Google	1	2.9	$0.045	0/3	272.5s
合計テスト数 3 誤答テスト数 3 合計コスト $0.045 応答時間（平均） 272.5s
#94	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
合計テスト数 2 誤答テスト数 2 合計コスト $0.070 応答時間（平均） 258.4s
#61	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.042	1/3	248.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.042 応答時間（平均） 248.7s
#53	DeepSeek V4 Pro high	DeepSeek	1	6.1	$0.157	1/3	243.0s
合計テスト数 3 誤答テスト数 2 合計コスト $0.157 応答時間（平均） 243.0s
#63	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.044 応答時間（平均） 220.5s
#103	Gemma 4 31B medium	Google	2	4.3	$0.033	0/3	219.8s
合計テスト数 3 誤答テスト数 3 合計コスト $0.033 応答時間（平均） 219.8s
#56	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.348 応答時間（平均） 217.5s
#44	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.888 応答時間（平均） 214.4s
#104	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
合計テスト数 3 誤答テスト数 2 合計コスト $0.401 応答時間（平均） 206.6s
#166	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.303 応答時間（平均） 188.6s
#79	Kimi K2.7 Code medium	Moonshot AI	1	7.6	$0.581	2/3	146.7s
合計テスト数 3 誤答テスト数 1 合計コスト $0.581 応答時間（平均） 146.7s
#52	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.131 応答時間（平均） 144.7s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.588 応答時間（平均） 114.5s
#77	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.288 応答時間（平均） 109.6s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
合計テスト数 3 誤答テスト数 2 合計コスト $0.177 応答時間（平均） 108.6s

モデルを絞り込む

タイムアウト件数上位モデル

タイムアウト件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

コーディング: タイムアウト

モデルを絞り込む

タイムアウト 件数 上位モデル

タイムアウト 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

タイムアウト件数上位モデル

タイムアウト件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル