コーディング x タイムアウトランキング

AI BENCHY カテゴリ別失敗

コーディングでタイムアウトが起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 正解テスト ↑.

表示モデル数

総失敗数

最も影響を受けたモデル

Gemma 4 26B A4B 1

失敗理由

不正解230 API エラー43 タイムアウト25 回答なし18 指示に従っていない16 余分な書式12

カテゴリ

ドメイン特化37 コーディング25 パズル解決5 反AIトリック4 汎用知能4 複合2 データ解析と抽出1 指示追従1

22/22

順位	モデル	企業	タイムアウト件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#72	Gemma 4 26B A4B medium	Google	1	2.9	$0.045	0/3	272.5s
合計テスト数 3 誤答テスト数 3 合計コスト $0.045 応答時間（平均） 272.5s
#77	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.288 応答時間（平均） 109.6s
#84	Qwen3.5-Flash medium	Qwen	1	3.7	$0.080	0/3	58.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.080 応答時間（平均） 58.9s
#94	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
合計テスト数 2 誤答テスト数 2 合計コスト $0.070 応答時間（平均） 258.4s
#103	Gemma 4 31B medium	Google	2	4.3	$0.033	0/3	219.8s
合計テスト数 3 誤答テスト数 3 合計コスト $0.033 応答時間（平均） 219.8s
#139	Gemma 4 26B A4B none	Google	1	3.7	$0.004	0/3	4.16s
合計テスト数 3 誤答テスト数 3 合計コスト $0.004 応答時間（平均） 4.16s
#166	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.303 応答時間（平均） 188.6s
#168	Qwen3 Coder Next medium	Qwen	1	3.7	$0.008	0/3	924ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 924ms
#177	GLM 4.7 Flash medium	Z.ai	2	3.2	$0.054	0/3	55.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.054 応答時間（平均） 55.3s
#185	Qwen3.5-9B medium	Qwen	1	2.9	$0.036	0/3	100.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.036 応答時間（平均） 100.9s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
合計テスト数 3 誤答テスト数 2 合計コスト $0.177 応答時間（平均） 108.6s
#32	GLM 5.2 high	Z.ai	2	6.4	$0.554	1/3	73.0s
合計テスト数 3 誤答テスト数 2 合計コスト $0.554 応答時間（平均） 73.0s
#44	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.888 応答時間（平均） 214.4s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.588 応答時間（平均） 114.5s
#52	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.131 応答時間（平均） 144.7s

モデルを絞り込む

タイムアウト件数上位モデル

タイムアウト件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

コーディング: タイムアウト

モデルを絞り込む

タイムアウト 件数 上位モデル

タイムアウト 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

タイムアウト件数上位モデル

タイムアウト件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル