ドメイン特化 x タイムアウトランキング

ドメイン特化でタイムアウトが起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 正解テスト ↑.

表示モデル数

総失敗数

最も影響を受けたモデル

GPT-5 Mini 1

失敗理由

不正解412 タイムアウト43 余分な書式17 回答なし8 API エラー7 指示に従っていない1

カテゴリ

ドメイン特化43 コーディング26 パズル解決5 複合5 反AIトリック4 汎用知能4 データ解析と抽出1 指示追従1

32/32

順位	モデル	企業	タイムアウト件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#26	GPT-5 Mini medium	OpenAI	1	3.6	$0.237	0/3	44.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.237 応答時間（平均） 44.6s
#31	GLM 5.2 high	Z.ai	1	3.7	$0.970	0/3	74.0s
合計テスト数 3 誤答テスト数 3 合計コスト $0.970 応答時間（平均） 74.0s
#38	GLM 5.2 medium	Z.ai	1	4.1	$0.222	0/3	45.5s
合計テスト数 3 誤答テスト数 3 合計コスト $0.222 応答時間（平均） 45.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
合計テスト数 3 誤答テスト数 3 合計コスト $2.057 応答時間（平均） 0ms
#42	GLM 5 medium	Z.ai	1	3.5	$0.307	0/3	0ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.307 応答時間（平均） 0ms
#49	GLM 5 Turbo medium	Z.ai	1	2.9	$0.323	0/3	71.1s
合計テスト数 3 誤答テスト数 3 合計コスト $0.323 応答時間（平均） 71.1s
#60	LongCat 2.0 medium	Meituan	1	2.9	$0.478	0/3	339.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.478 応答時間（平均） 339.9s
#76	DeepSeek V3.2 medium	DeepSeek	1	2.9	$0.078	0/3	24.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.078 応答時間（平均） 24.3s
#77	Kimi K2.5 medium	Moonshot AI	1	3.5	$0.600	0/3	137.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.600 応答時間（平均） 137.3s
#80	Seed-2.0-Mini medium	Bytedance Seed	3	3.0	$0.101	0/3	0ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.101 応答時間（平均） 0ms
#91	LongCat 2.0 low	Meituan	1	3.0	$0.391	0/3	86.1s
合計テスト数 3 誤答テスト数 3 合計コスト $0.391 応答時間（平均） 86.1s
#95	Gemma 4 26B A4B medium	Google	1	2.9	$0.089	0/3	23.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.089 応答時間（平均） 23.6s
#97	LongCat 2.0 high	Meituan	2	3.6	$0.469	0/3	400.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.469 応答時間（平均） 400.3s
#119	Qwen3.5-35B-A3B medium	Qwen	2	4.1	$0.837	0/3	88.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.837 応答時間（平均） 88.3s
#140	Nemotron 3 Super medium	NVIDIA	1	2.9	$0.050	0/3	16.2s
合計テスト数 3 誤答テスト数 3 合計コスト $0.050 応答時間（平均） 16.2s

モデルを絞り込む

タイムアウト件数上位モデル

タイムアウト件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

ドメイン特化: タイムアウト

モデルを絞り込む

タイムアウト 件数 上位モデル

タイムアウト 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

タイムアウト件数上位モデル

タイムアウト件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル