ドメイン特化 x 不正解ランキング

ドメイン特化で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

421

最も影響を受けたモデル

Muse Spark 1.1 3

失敗理由

不正解421 タイムアウト43 余分な書式17 回答なし8 API エラー7 指示に従っていない1

カテゴリ

ドメイン特化421 反AIトリック293 コーディング259 パズル解決204 雑学172 複合69 汎用知能62 指示追従61 データ解析と抽出41 ツール呼び出し3

202/202

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#174	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.025 応答時間（平均） 756ms
#175	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.021 応答時間（平均） 464ms
#177	North Mini Code none	Cohere	3	3.0	$0.000	0/3	14.7s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 14.7s
#180	GPT-4o-mini none	OpenAI	3	3.0	$0.010	0/3	637ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.010 応答時間（平均） 637ms
#183	Nemotron 3 Super none	NVIDIA	3	3.6	$0.008	0/3	6.23s
合計テスト数 3 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 6.23s
#184	Ling-2.6-flash none	Inclusionai	3	3.0	$0.002	0/3	4.95s
合計テスト数 3 誤答テスト数 3 合計コスト $0.002 応答時間（平均） 4.95s
#186	GPT-5.4 Nano none	OpenAI	3	2.9	$0.041	0/3	926ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.041 応答時間（平均） 926ms
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	2.9	$0.067	0/3	6.24s
合計テスト数 3 誤答テスト数 3 合計コスト $0.067 応答時間（平均） 6.24s
#194	Cobuddy medium	Baidu	3	2.9	$0.000	0/3	128.2s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 128.2s
#197	Grok 4.20 Beta none	X AI	3	3.0	$0.087	0/3	611ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.087 応答時間（平均） 611ms
#198	Laguna M.1 none	Poolside	3	3.6	$0.009	0/3	5.50s
合計テスト数 3 誤答テスト数 3 合計コスト $0.009 応答時間（平均） 5.50s
#199	Elephant Alpha none	Openrouter	3	3.0	$0.000	0/3	927ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 927ms
#201	Elephant Alpha medium	Openrouter	3	3.0	$0.000	0/3	925ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 925ms
#207	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.007 応答時間（平均） 357ms
#212	gpt-oss-120b none	OpenAI	3	3.0	$0.010	0/3	35.0s
合計テスト数 3 誤答テスト数 3 合計コスト $0.010 応答時間（平均） 35.0s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

ドメイン特化: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル