ドメイン特化モデルランキング

ドメイン特化でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↓.

表示モデル数

平均ドメイン特化スコア

4.7

最良モデル

Kimi K3 5.9

失敗理由

失敗理由不正解で421 失敗理由タイムアウトで43 失敗理由余分な書式で17 失敗理由回答なしで8 失敗理由 API エラーで7 失敗理由指示に従っていないで1

216/216

順位	モデル	企業	ドメイン特化スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#30	Muse Spark 1.1 high	Meta	3.5	8.1	$1.694	0/3	67.4s
合計テスト数 3 誤答テスト数 3 合計コスト $1.694 応答時間（平均） 67.4s
#108	Laguna XS 2.1 medium	Poolside	2.9	6.5	$0.068	0/3	65.7s
合計テスト数 3 誤答テスト数 3 合計コスト $0.068 応答時間（平均） 65.7s
#60	GPT-5.4 Mini medium	OpenAI	4.1	7.5	$0.756	0/3	65.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.756 応答時間（平均） 65.3s
#114	Ring-2.6-1T medium	Inclusionai	3.5	6.3	$0.103	0/3	64.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.103 応答時間（平均） 64.9s
#16	GPT-5.3-Codex medium	OpenAI	5.9	8.9	$0.920	1/3	64.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.920 応答時間（平均） 64.3s
#76	Qwen3.5-122B-A10B medium	Qwen	2.9	7.1	$1.046	0/3	63.4s
合計テスト数 3 誤答テスト数 3 合計コスト $1.046 応答時間（平均） 63.4s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	56.7s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 56.7s
#20	Claude Fable 5 medium	Anthropic	5.3	8.6	$3.478	1/3	53.4s
合計テスト数 3 誤答テスト数 2 合計コスト $3.478 応答時間（平均） 53.4s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	2.9	7.2	$0.317	0/3	53.1s
合計テスト数 3 誤答テスト数 3 合計コスト $0.317 応答時間（平均） 53.1s
#127	gpt-oss-120b medium	OpenAI	2.9	6.1	$0.019	0/3	50.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.019 応答時間（平均） 50.9s
#33	Step 3.7 Flash medium	Stepfun	7.7	8.0	$0.515	2/3	48.3s
合計テスト数 3 誤答テスト数 1 合計コスト $0.515 応答時間（平均） 48.3s
#140	Mimo V2 Omni medium	Xiaomi	3.0	5.9	$0.683	0/3	47.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.683 応答時間（平均） 47.9s
#7	GPT-5.6 Sol medium	OpenAI	5.9	9.4	$1.316	1/3	47.9s
合計テスト数 3 誤答テスト数 2 合計コスト $1.316 応答時間（平均） 47.9s
#45	Claude Opus 4.8 low	Anthropic	5.3	7.8	$2.077	1/3	45.5s
合計テスト数 3 誤答テスト数 2 合計コスト $2.077 応答時間（平均） 45.5s
#42	GLM 5.2 medium	Z.ai	4.1	7.8	$0.187	0/3	45.5s
合計テスト数 3 誤答テスト数 3 合計コスト $0.187 応答時間（平均） 45.5s

ドメイン特化ランキング

モデルを絞り込む

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル

ドメイン特化 ランキング

モデルを絞り込む

ドメイン特化 スコア 上位モデル

ドメイン特化 スコア vs 合計コスト

応答時間（平均） 上位モデル

ドメイン特化ランキング

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル