ドメイン特化 x 不正解ランキング

ドメイン特化で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

421

最も影響を受けたモデル

Muse Spark 1.1 3

失敗理由

不正解421 タイムアウト43 余分な書式17 回答なし8 API エラー7 指示に従っていない1

カテゴリ

ドメイン特化421 反AIトリック293 コーディング259 パズル解決204 雑学172 複合69 汎用知能62 指示追従61 データ解析と抽出41 ツール呼び出し3

202/202

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
合計テスト数 3 誤答テスト数 2 合計コスト $1.166 応答時間（平均） 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.454 応答時間（平均） 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.779 応答時間（平均） 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.078 応答時間（平均） 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.600 応答時間（平均） 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
合計テスト数 3 誤答テスト数 2 合計コスト $0.096 応答時間（平均） 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
合計テスト数 3 誤答テスト数 3 合計コスト $1.207 応答時間（平均） 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.746 応答時間（平均） 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
合計テスト数 3 誤答テスト数 3 合計コスト $0.391 応答時間（平均） 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.457 応答時間（平均） 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.089 応答時間（平均） 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
合計テスト数 3 誤答テスト数 2 合計コスト $0.128 応答時間（平均） 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.018 応答時間（平均） 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
合計テスト数 3 誤答テスト数 2 合計コスト $0.646 応答時間（平均） 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
合計テスト数 3 誤答テスト数 2 合計コスト $0.621 応答時間（平均） 1.52s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

ドメイン特化: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル