ドメイン特化モデルランキング

ドメイン特化でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

平均ドメイン特化スコア

4.7

最良モデル

Claude Sonnet 4.6 2.9

失敗理由

失敗理由不正解で421 失敗理由タイムアウトで43 失敗理由余分な書式で17 失敗理由回答なしで8 失敗理由 API エラーで7 失敗理由指示に従っていないで1

216/216

順位	モデル	企業	ドメイン特化スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#17	Claude Opus 4.8 medium	Anthropic	5.3	8.8	$1.931	1/3	14.6s
合計テスト数 3 誤答テスト数 2 合計コスト $1.931 応答時間（平均） 14.6s
#89	Qwen3.6 Flash medium	Qwen	3.5	6.9	$0.738	0/3	14.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.738 応答時間（平均） 14.6s
#177	North Mini Code none	Cohere	3.0	5.1	$0.000	0/3	14.7s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 14.7s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	3/3	15.3s
合計テスト数 3 誤答テスト数 0 合計コスト $0.742 応答時間（平均） 15.3s
#146	Nemotron 3 Super medium	NVIDIA	2.9	5.7	$0.055	0/3	16.2s
合計テスト数 3 誤答テスト数 3 合計コスト $0.055 応答時間（平均） 16.2s
#54	GPT-5.6 Luna medium	OpenAI	5.3	7.6	$0.352	1/3	17.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.352 応答時間（平均） 17.4s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	5.3	7.5	$0.437	1/3	17.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.437 応答時間（平均） 17.5s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	4.1	7.4	$0.387	0/3	17.5s
合計テスト数 3 誤答テスト数 3 合計コスト $0.387 応答時間（平均） 17.5s
#205	Hy3 preview none	Tencent	3.6	4.0	$0.003	0/3	17.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 17.6s
#34	GPT-5.2 Chat none	OpenAI	5.3	8.0	$0.604	1/3	17.8s
合計テスト数 3 誤答テスト数 2 合計コスト $0.604 応答時間（平均） 17.8s
#178	MiniMax M2.7 medium	Minimax	3.0	5.0	$0.163	0/3	19.0s
合計テスト数 3 誤答テスト数 3 合計コスト $0.163 応答時間（平均） 19.0s
#31	Gemini 3.5 Flash-Lite high	Google	5.3	8.1	$0.584	1/3	19.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.584 応答時間（平均） 19.5s
#156	DeepSeek V4 Flash none	DeepSeek	5.3	5.6	$0.042	1/3	19.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.042 応答時間（平均） 19.7s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	20.4s
合計テスト数 3 誤答テスト数 1 合計コスト $0.922 応答時間（平均） 20.4s
#137	Grok 4.20 Beta medium	X AI	5.3	6.0	$0.750	1/3	21.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.750 応答時間（平均） 21.3s

ドメイン特化ランキング

モデルを絞り込む

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル

ドメイン特化 ランキング

モデルを絞り込む

ドメイン特化 スコア 上位モデル

ドメイン特化 スコア vs 合計コスト

応答時間（平均） 上位モデル

ドメイン特化ランキング

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル