ドメイン特化 x 不正解ランキング

ドメイン特化で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 応答時間（平均） ↑.

表示モデル数

総失敗数

412

最も影響を受けたモデル

Claude Sonnet 4.6 1

失敗理由

不正解412 タイムアウト43 余分な書式17 回答なし8 API エラー7 指示に従っていない1

カテゴリ

ドメイン特化412 反AIトリック293 コーディング252 パズル解決201 雑学168 複合68 指示追従61 汎用知能59 データ解析と抽出41 ツール呼び出し3

198/198

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
合計テスト数 3 誤答テスト数 3 合計コスト $2.057 応答時間（平均） 0ms
#42	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.307 応答時間（平均） 0ms
#210	LFM2-24B-A2B none	Liquid	1	5.9	$0.001	1/3	287ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.001 応答時間（平均） 287ms
#201	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.007 応答時間（平均） 357ms
#160	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/3	364ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.008 応答時間（平均） 364ms
#165	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.022 応答時間（平均） 367ms
#205	Laguna Xs.2 none	Poolside	2	5.3	$0.004	1/3	371ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.004 応答時間（平均） 371ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.021 応答時間（平均） 464ms
#142	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.247	1/3	465ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.247 応答時間（平均） 465ms
#127	Qwen3.5-35B-A3B none	Qwen	1	7.7	$0.106	2/3	485ms
合計テスト数 3 誤答テスト数 1 合計コスト $0.106 応答時間（平均） 485ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 489ms
#118	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.017 応答時間（平均） 495ms
#189	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.030 応答時間（平均） 534ms
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.090 応答時間（平均） 540ms
#200	MiMo-V2-Flash none	Xiaomi	2	5.3	$0.025	1/3	564ms
合計テスト数 3 誤答テスト数 2 合計コスト $0.025 応答時間（平均） 564ms

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

ドメイン特化: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル