ドメイン特化モデルランキング

ドメイン特化でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 指標 ↑.

表示モデル数

平均ドメイン特化スコア

4.7

最良モデル

GLM 5 Turbo 2.9

失敗理由

失敗理由不正解で412 失敗理由タイムアウトで43 失敗理由余分な書式で17 失敗理由回答なしで8 失敗理由 API エラーで7 失敗理由指示に従っていないで1

210/210

順位	モデル	企業	ドメイン特化スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#65	Gemini 3.1 Flash Lite medium	Google	2.9	7.3	$0.117	0/3	3.16s
合計テスト数 3 誤答テスト数 3 合計コスト $0.117 応答時間（平均） 3.16s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	2.9	7.2	$0.317	0/3	53.1s
合計テスト数 3 誤答テスト数 3 合計コスト $0.317 応答時間（平均） 53.1s
#72	Qwen3.5-122B-A10B medium	Qwen	2.9	7.1	$1.046	0/3	63.4s
合計テスト数 3 誤答テスト数 3 合計コスト $1.046 応答時間（平均） 63.4s
#78	Mercury 2 medium	Inception	2.9	7.0	$0.093	0/3	6.48s
合計テスト数 3 誤答テスト数 3 合計コスト $0.093 応答時間（平均） 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	2.9	6.9	$0.467	0/3	29.0s
合計テスト数 3 誤答テスト数 3 合計コスト $0.467 応答時間（平均） 29.0s
#87	GPT-5.5 none	OpenAI	2.9	6.9	$0.544	0/3	1.31s
合計テスト数 3 誤答テスト数 3 合計コスト $0.544 応答時間（平均） 1.31s
#99	Qwen3.6 27B medium	Qwen	2.9	6.5	$0.779	0/3	73.4s
合計テスト数 3 誤答テスト数 3 合計コスト $0.779 応答時間（平均） 73.4s
#102	Laguna XS 2.1 medium	Poolside	2.9	6.5	$0.068	0/3	65.7s
合計テスト数 3 誤答テスト数 3 合計コスト $0.068 応答時間（平均） 65.7s
#120	Gemini 3.1 Flash Lite minimal	Google	2.9	6.1	$0.047	0/3	1.02s
合計テスト数 3 誤答テスト数 3 合計コスト $0.047 応答時間（平均） 1.02s
#122	Gemini 3.1 Flash Lite none	Google	2.9	6.1	$0.046	0/3	762ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.046 応答時間（平均） 762ms
#144	KAT-Coder-Air V2.5 high	Kwaipilot	2.9	5.6	$0.077	0/3	7.47s
合計テスト数 3 誤答テスト数 3 合計コスト $0.077 応答時間（平均） 7.47s
#151	GLM 5.1 none	Z.ai	2.9	5.5	$0.164	0/3	1.99s
合計テスト数 3 誤答テスト数 3 合計コスト $0.164 応答時間（平均） 1.99s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2.9	5.4	$0.041	0/3	4.99s
合計テスト数 3 誤答テスト数 3 合計コスト $0.041 応答時間（平均） 4.99s
#159	GPT-5.6 Luna none	OpenAI	2.9	5.4	$0.142	0/3	737ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.142 応答時間（平均） 737ms
#173	DeepSeek V3.2 none	DeepSeek	2.9	5.0	$0.054	0/3	4.17s
合計テスト数 3 誤答テスト数 3 合計コスト $0.054 応答時間（平均） 4.17s

ドメイン特化ランキング

モデルを絞り込む

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル

ドメイン特化 ランキング

モデルを絞り込む

ドメイン特化 スコア 上位モデル

ドメイン特化 スコア vs 合計コスト

応答時間（平均） 上位モデル

ドメイン特化ランキング

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル