ドメイン特化 x タイムアウトランキング

ドメイン特化でタイムアウトが起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 正解テスト ↓.

表示モデル数

総失敗数

最も影響を受けたモデル

Claude Opus 4.7 1

失敗理由

不正解412 タイムアウト43 余分な書式17 回答なし8 API エラー7 指示に従っていない1

カテゴリ

ドメイン特化43 コーディング26 パズル解決5 複合5 反AIトリック4 汎用知能4 データ解析と抽出1 指示追従1

32/32

順位	モデル	企業	タイムアウト件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#15	Claude Opus 4.7 medium	Anthropic	1	7.7	$1.477	2/3	1.17s
合計テスト数 3 誤答テスト数 1 合計コスト $1.477 応答時間（平均） 1.17s
#21	GPT-5.2 medium	OpenAI	1	5.9	$0.951	1/3	77.8s
合計テスト数 3 誤答テスト数 2 合計コスト $0.951 応答時間（平均） 77.8s
#33	Kimi K3 max	Moonshot AI	2	5.9	$3.112	1/3	490.1s
合計テスト数 3 誤答テスト数 2 合計コスト $3.112 応答時間（平均） 490.1s
#47	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/3	233.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.286 応答時間（平均） 233.1s
#52	Kimi K2.7 Code medium	Moonshot AI	2	5.5	$0.751	1/3	213.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.751 応答時間（平均） 213.3s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	5.3	$0.437	1/3	17.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.437 応答時間（平均） 17.5s
#58	Qwen3.5-27B medium	Qwen	1	5.3	$1.627	1/3	79.5s
合計テスト数 3 誤答テスト数 2 合計コスト $1.627 応答時間（平均） 79.5s
#68	Kimi K2.6 medium	Moonshot AI	2	5.3	$1.036	1/3	202.4s
合計テスト数 3 誤答テスト数 2 合計コスト $1.036 応答時間（平均） 202.4s
#74	GLM 5.1 medium	Z.ai	1	5.3	$0.535	1/3	29.8s
合計テスト数 3 誤答テスト数 2 合計コスト $0.535 応答時間（平均） 29.8s
#109	Mimo V2 PRO medium	Xiaomi	1	5.3	$0.333	1/3	8.82s
合計テスト数 3 誤答テスト数 2 合計コスト $0.333 応答時間（平均） 8.82s
#114	Qwen3.5-Flash medium	Qwen	1	5.3	$0.139	1/3	146.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.139 応答時間（平均） 146.5s
#128	GPT-5 Nano medium	OpenAI	1	5.2	$0.114	1/3	204.0s
合計テスト数 3 誤答テスト数 2 合計コスト $0.114 応答時間（平均） 204.0s
#185	Grok 4.1 Fast medium	X AI	1	5.8	$0.069	1/3	121.8s
合計テスト数 3 誤答テスト数 2 合計コスト $0.069 応答時間（平均） 121.8s
#26	GPT-5 Mini medium	OpenAI	1	3.6	$0.237	0/3	44.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.237 応答時間（平均） 44.6s
#31	GLM 5.2 high	Z.ai	1	3.7	$0.970	0/3	74.0s
合計テスト数 3 誤答テスト数 3 合計コスト $0.970 応答時間（平均） 74.0s

モデルを絞り込む

タイムアウト件数上位モデル

タイムアウト件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

ドメイン特化: タイムアウト

モデルを絞り込む

タイムアウト 件数 上位モデル

タイムアウト 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

タイムアウト件数上位モデル

タイムアウト件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル