ドメイン特化 x 不正解ランキング

ドメイン特化で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

421

最も影響を受けたモデル

Muse Spark 1.1 3

失敗理由

不正解421 タイムアウト43 余分な書式17 回答なし8 API エラー7 指示に従っていない1

カテゴリ

ドメイン特化421 反AIトリック293 コーディング259 パズル解決204 雑学172 複合69 汎用知能62 指示追従61 データ解析と抽出41 ツール呼び出し3

202/202

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 489ms
#5	GPT-5.6 Sol low	OpenAI	2	5.3	$0.971	1/3	29.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.971 応答時間（平均） 29.1s
#7	GPT-5.6 Sol medium	OpenAI	2	5.9	$1.316	1/3	47.9s
合計テスト数 3 誤答テスト数 2 合計コスト $1.316 応答時間（平均） 47.9s
#8	GPT-5.6 Sol high	OpenAI	2	5.3	$1.234	1/3	39.5s
合計テスト数 3 誤答テスト数 2 合計コスト $1.234 応答時間（平均） 39.5s
#9	GPT-5.5 low	OpenAI	2	5.3	$1.253	1/3	28.1s
合計テスト数 3 誤答テスト数 2 合計コスト $1.253 応答時間（平均） 28.1s
#11	Qwen3.7 Max medium	Qwen	2	5.9	$1.116	1/3	24.9s
合計テスト数 3 誤答テスト数 2 合計コスト $1.116 応答時間（平均） 24.9s
#13	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
合計テスト数 3 誤答テスト数 2 合計コスト $4.137 応答時間（平均） 164.1s
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
合計テスト数 3 誤答テスト数 3 合計コスト $1.707 応答時間（平均） 332.1s
#16	GPT-5.3-Codex medium	OpenAI	2	5.9	$0.920	1/3	64.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.920 応答時間（平均） 64.3s
#17	Claude Opus 4.8 medium	Anthropic	2	5.3	$1.931	1/3	14.6s
合計テスト数 3 誤答テスト数 2 合計コスト $1.931 応答時間（平均） 14.6s
#20	Claude Fable 5 medium	Anthropic	2	5.3	$3.478	1/3	53.4s
合計テスト数 3 誤答テスト数 2 合計コスト $3.478 応答時間（平均） 53.4s
#21	GPT-5.4 medium	OpenAI	2	5.3	$1.533	1/3	74.3s
合計テスト数 3 誤答テスト数 2 合計コスト $1.533 応答時間（平均） 74.3s
#28	Gemini 2.5 Flash medium	Google	2	5.9	$0.643	1/3	37.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.643 応答時間（平均） 37.3s
#29	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.237 応答時間（平均） 44.6s
#30	Muse Spark 1.1 high	Meta	2	3.5	$1.694	0/3	67.4s
合計テスト数 3 誤答テスト数 3 合計コスト $1.694 応答時間（平均） 67.4s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

ドメイン特化: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル