ドメイン特化モデルランキング

ドメイン特化でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 正解テスト ↓.

表示モデル数

平均ドメイン特化スコア

4.7

最良モデル

Gemini 3.6 Flash 10.0

失敗理由

失敗理由不正解で433 失敗理由タイムアウトで43 失敗理由余分な書式で17 失敗理由回答なしで8 失敗理由 API エラーで7 失敗理由指示に従っていないで1

220/220

順位	モデル	企業	ドメイン特化スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#43	GPT-5.6 Terra medium	OpenAI	5.3	7.8	$0.676	1/3	23.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.676 応答時間（平均） 23.4s
#45	Claude Opus 4.8 low	Anthropic	5.3	7.8	$2.077	1/3	45.5s
合計テスト数 3 誤答テスト数 2 合計コスト $2.077 応答時間（平均） 45.5s
#51	MiniMax M3 medium	Minimax	5.5	7.6	$0.286	1/3	233.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.286 応答時間（平均） 233.1s
#52	Grok Build 0.1 medium	X AI	5.3	7.6	$1.097	1/3	158.0s
合計テスト数 3 誤答テスト数 2 合計コスト $1.097 応答時間（平均） 158.0s
#54	GPT-5.6 Luna medium	OpenAI	5.3	7.6	$0.352	1/3	17.4s
合計テスト数 3 誤答テスト数 2 合計コスト $0.352 応答時間（平均） 17.4s
#56	Kimi K2.7 Code medium	Moonshot AI	5.5	7.5	$0.740	1/3	213.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.740 応答時間（平均） 213.3s
#57	GPT-5.4 Nano medium	OpenAI	5.9	7.5	$0.138	1/3	38.2s
合計テスト数 3 誤答テスト数 2 合計コスト $0.138 応答時間（平均） 38.2s
#59	GPT-5.6 Terra low	OpenAI	5.3	7.5	$0.519	1/3	8.34s
合計テスト数 3 誤答テスト数 2 合計コスト $0.519 応答時間（平均） 8.34s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	5.3	7.5	$0.437	1/3	17.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.437 応答時間（平均） 17.5s
#62	Qwen3.5-27B medium	Qwen	5.3	7.4	$1.627	1/3	79.5s
合計テスト数 3 誤答テスト数 2 合計コスト $1.627 応答時間（平均） 79.5s
#65	Gemini 3 Flash Preview low	Google	5.3	7.4	$0.177	1/3	8.05s
合計テスト数 3 誤答テスト数 2 合計コスト $0.177 応答時間（平均） 8.05s
#70	Claude Opus 4.8 none	Anthropic	5.3	7.3	$1.166	1/3	1.70s
合計テスト数 3 誤答テスト数 2 合計コスト $1.166 応答時間（平均） 1.70s
#71	Step 3.7 Flash low	Stepfun	5.3	7.3	$0.454	1/3	43.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.454 応答時間（平均） 43.3s
#72	Kimi K2.6 medium	Moonshot AI	5.3	7.2	$1.036	1/3	202.4s
合計テスト数 3 誤答テスト数 2 合計コスト $1.036 応答時間（平均） 202.4s
#77	Grok 4.3 medium	X AI	5.3	7.1	$0.779	1/3	181.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.779 応答時間（平均） 181.7s

ドメイン特化ランキング

モデルを絞り込む

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル

ドメイン特化 ランキング

モデルを絞り込む

ドメイン特化 スコア 上位モデル

ドメイン特化 スコア vs 合計コスト

応答時間（平均） 上位モデル

ドメイン特化ランキング

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル