ドメイン特化 x 不正解ランキング

ドメイン特化で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

421

最も影響を受けたモデル

Muse Spark 1.1 3

失敗理由

不正解421 タイムアウト43 余分な書式17 回答なし8 API エラー7 指示に従っていない1

カテゴリ

ドメイン特化421 反AIトリック293 コーディング259 パズル解決204 雑学172 複合69 汎用知能62 指示追従61 データ解析と抽出41 ツール呼び出し3

202/202

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.584 応答時間（平均） 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
合計テスト数 3 誤答テスト数 2 合計コスト $0.604 応答時間（平均） 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
合計テスト数 3 誤答テスト数 2 合計コスト $0.391 応答時間（平均） 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
合計テスト数 3 誤答テスト数 2 合計コスト $1.055 応答時間（平均） 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.234 応答時間（平均） 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.676 応答時間（平均） 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
合計テスト数 3 誤答テスト数 2 合計コスト $2.077 応答時間（平均） 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.307 応答時間（平均） 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
合計テスト数 3 誤答テスト数 3 合計コスト $0.200 応答時間（平均） 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
合計テスト数 3 誤答テスト数 3 合計コスト $0.323 応答時間（平均） 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.352 応答時間（平均） 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
合計テスト数 3 誤答テスト数 2 合計コスト $0.138 応答時間（平均） 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
合計テスト数 3 誤答テスト数 2 合計コスト $0.519 応答時間（平均） 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.478 応答時間（平均） 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
合計テスト数 3 誤答テスト数 2 合計コスト $0.177 応答時間（平均） 8.05s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

ドメイン特化: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル