ドメイン特化 x 不正解ランキング

ドメイン特化で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

421

最も影響を受けたモデル

Muse Spark 1.1 3

失敗理由

不正解421 タイムアウト43 余分な書式17 回答なし8 API エラー7 指示に従っていない1

カテゴリ

ドメイン特化421 反AIトリック293 コーディング259 パズル解決204 雑学172 複合69 汎用知能62 指示追従61 データ解析と抽出41 ツール呼び出し3

202/202

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#170	Inkling none	Thinkingmachines	2	5.3	$0.147	1/3	1.45s
合計テスト数 3 誤答テスト数 2 合計コスト $0.147 応答時間（平均） 1.45s
#171	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.022 応答時間（平均） 367ms
#172	Qwen3 Coder Next none	Qwen	2	5.3	$0.025	1/3	962ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.025 応答時間（平均） 962ms
#176	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	1/3	1.97s
合計テスト数 3 誤答テスト数 2 合計コスト $0.047 応答時間（平均） 1.97s
#179	DeepSeek V3.2 none	DeepSeek	2	2.9	$0.054	0/3	4.17s
合計テスト数 3 誤答テスト数 3 合計コスト $0.054 応答時間（平均） 4.17s
#181	Qwen3.6 Plus Preview medium	Qwen	2	3.0	$0.000	0/3	22.1s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 22.1s
#185	Ring-2.6-1T none	Inclusionai	2	5.3	$0.026	1/3	73.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.026 応答時間（平均） 73.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	2.9	$5.599	0/3	24.7s
合計テスト数 3 誤答テスト数 3 合計コスト $5.599 応答時間（平均） 24.7s
#189	Trinity Large Preview none	Arcee AI	2	5.3	$0.008	1/3	877ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.008 応答時間（平均） 877ms
#192	Laguna M.1 medium	Poolside	2	5.3	$0.033	1/3	24.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.033 応答時間（平均） 24.1s
#193	Qwen3 Coder Next medium	Qwen	2	5.3	$0.032	1/3	638ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.032 応答時間（平均） 638ms
#195	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.030 応答時間（平均） 534ms
#196	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.340 応答時間（平均） 237.3s
#200	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.166 応答時間（平均） 174.6s
#202	Hunter Alpha none	OpenRouter	2	5.3	$0.000	1/3	2.33s
合計テスト数 3 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 2.33s

←

1 9 10 11 14

→

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

ドメイン特化: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル