ドメイン特化モデルランキング

ドメイン特化でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↓.

表示モデル数

平均ドメイン特化スコア

4.7

最良モデル

Kimi K3 5.9

失敗理由

失敗理由不正解で421 失敗理由タイムアウトで43 失敗理由余分な書式で17 失敗理由回答なしで8 失敗理由 API エラーで7 失敗理由指示に従っていないで1

216/216

順位	モデル	企業	ドメイン特化スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#100	Gemma 4 26B A4B medium	Google	2.9	6.6	$0.089	0/3	23.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.089 応答時間（平均） 23.6s
#43	GPT-5.6 Terra medium	OpenAI	5.3	7.8	$0.676	1/3	23.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.676 応答時間（平均） 23.4s
#94	Qwen3.6 35B A3B medium	Qwen	5.3	6.7	$0.746	1/3	22.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.746 応答時間（平均） 22.5s
#106	Hy3 preview medium	Tencent	5.3	6.5	$0.018	1/3	22.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.018 応答時間（平均） 22.3s
#181	Qwen3.6 Plus Preview medium	Qwen	3.0	4.9	$0.000	0/3	22.1s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 22.1s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	3.6	6.7	$0.476	0/3	21.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.476 応答時間（平均） 21.6s
#137	Grok 4.20 Beta medium	X AI	5.3	6.0	$0.750	1/3	21.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.750 応答時間（平均） 21.3s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	20.4s
合計テスト数 3 誤答テスト数 1 合計コスト $0.922 応答時間（平均） 20.4s
#156	DeepSeek V4 Flash none	DeepSeek	5.3	5.6	$0.042	1/3	19.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.042 応答時間（平均） 19.7s
#31	Gemini 3.5 Flash-Lite high	Google	5.3	8.1	$0.584	1/3	19.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.584 応答時間（平均） 19.5s
#178	MiniMax M2.7 medium	Minimax	3.0	5.0	$0.163	0/3	19.0s
合計テスト数 3 誤答テスト数 3 合計コスト $0.163 応答時間（平均） 19.0s
#34	GPT-5.2 Chat none	OpenAI	5.3	8.0	$0.604	1/3	17.8s
合計テスト数 3 誤答テスト数 2 合計コスト $0.604 応答時間（平均） 17.8s
#205	Hy3 preview none	Tencent	3.6	4.0	$0.003	0/3	17.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.003 応答時間（平均） 17.6s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	4.1	7.4	$0.387	0/3	17.5s
合計テスト数 3 誤答テスト数 3 合計コスト $0.387 応答時間（平均） 17.5s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	5.3	7.5	$0.437	1/3	17.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.437 応答時間（平均） 17.5s

ドメイン特化ランキング

モデルを絞り込む

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル

ドメイン特化 ランキング

モデルを絞り込む

ドメイン特化 スコア 上位モデル

ドメイン特化 スコア vs 合計コスト

応答時間（平均） 上位モデル

ドメイン特化ランキング

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル