ドメイン特化 x 不正解ランキング

ドメイン特化で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 応答時間（平均） ↓.

表示モデル数

総失敗数

433

最も影響を受けたモデル

LongCat 2.0 1

失敗理由

不正解433 タイムアウト43 余分な書式17 回答なし8 API エラー7 指示に従っていない1

カテゴリ

ドメイン特化433 反AIトリック306 コーディング266 パズル解決214 雑学176 複合71 汎用知能66 指示追従65 データ解析と抽出41 ツール呼び出し4

206/206

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#102	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/3	400.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.469 応答時間（平均） 400.3s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.478 応答時間（平均） 339.9s
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
合計テスト数 3 誤答テスト数 3 合計コスト $1.707 応答時間（平均） 332.1s
#199	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.340 応答時間（平均） 237.3s
#134	GPT-5 Nano medium	OpenAI	1	5.2	$0.114	1/3	204.0s
合計テスト数 3 誤答テスト数 2 合計コスト $0.114 応答時間（平均） 204.0s
#25	Grok 4.5 medium	X AI	3	2.9	$1.928	0/3	198.9s
合計テスト数 3 誤答テスト数 3 合計コスト $1.928 応答時間（平均） 198.9s
#32	Inkling high	Thinkingmachines	1	7.7	$1.006	2/3	186.4s
合計テスト数 3 誤答テスト数 1 合計コスト $1.006 応答時間（平均） 186.4s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.779 応答時間（平均） 181.7s
#204	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.166 応答時間（平均） 174.6s
#136	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.108 応答時間（平均） 170.5s
#13	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
合計テスト数 3 誤答テスト数 2 合計コスト $4.137 応答時間（平均） 164.1s
#52	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
合計テスト数 3 誤答テスト数 2 合計コスト $1.097 応答時間（平均） 158.0s
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
合計テスト数 3 誤答テスト数 3 合計コスト $0.200 応答時間（平均） 151.5s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
合計テスト数 3 誤答テスト数 3 合計コスト $1.207 応答時間（平均） 149.6s
#120	Qwen3.5-Flash medium	Qwen	1	5.3	$0.139	1/3	146.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.139 応答時間（平均） 146.5s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

ドメイン特化: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル