ドメイン特化モデルランキング

ドメイン特化でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

平均ドメイン特化スコア

4.7

最良モデル

Claude Sonnet 4.6 2.9

失敗理由

失敗理由不正解で421 失敗理由タイムアウトで43 失敗理由余分な書式で17 失敗理由回答なしで8 失敗理由 API エラーで7 失敗理由指示に従っていないで1

216/216

順位	モデル	企業	ドメイン特化スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#104	Gemini 3.5 Flash-Lite medium	Google	2.9	6.5	$0.369	0/3	6.62s
合計テスト数 3 誤答テスト数 3 合計コスト $0.369 応答時間（平均） 6.62s
#139	Gemini 3 PRO Preview medium	Google	5.3	6.0	$0.385	1/3	7.01s
合計テスト数 3 誤答テスト数 2 合計コスト $0.385 応答時間（平均） 7.01s
#167	Qwen3.6 35B A3B none	Qwen	3.5	5.3	$0.061	0/3	7.45s
合計テスト数 3 誤答テスト数 3 合計コスト $0.061 応答時間（平均） 7.45s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	2.9	5.6	$0.077	0/3	7.47s
合計テスト数 3 誤答テスト数 3 合計コスト $0.077 応答時間（平均） 7.47s
#65	Gemini 3 Flash Preview low	Google	5.3	7.4	$0.177	1/3	8.05s
合計テスト数 3 誤答テスト数 2 合計コスト $0.177 応答時間（平均） 8.05s
#59	GPT-5.6 Terra low	OpenAI	5.3	7.5	$0.519	1/3	8.34s
合計テスト数 3 誤答テスト数 2 合計コスト $0.519 応答時間（平均） 8.34s
#152	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	8.58s
合計テスト数 3 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 8.58s
#115	Mimo V2 PRO medium	Xiaomi	5.3	6.3	$0.333	1/3	8.82s
合計テスト数 3 誤答テスト数 2 合計コスト $0.333 応答時間（平均） 8.82s
#123	GPT-5.6 Luna low	OpenAI	3.6	6.2	$0.249	0/3	10.0s
合計テスト数 3 誤答テスト数 3 合計コスト $0.249 応答時間（平均） 10.0s
#190	Hunter Alpha medium	OpenRouter	3.0	4.7	$0.000	0/3	10.5s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 10.5s
#83	Gemini 3.5 Flash none	Google	7.6	7.0	$1.079	2/3	10.6s
合計テスト数 3 誤答テスト数 1 合計コスト $1.079 応答時間（平均） 10.6s
#204	Laguna Xs.2 medium	Poolside	4.1	4.1	$0.015	0/3	11.1s
合計テスト数 3 誤答テスト数 3 合計コスト $0.015 応答時間（平均） 11.1s
#1	Gemini 3.6 Flash medium	Google	8.2	9.9	$0.831	2/3	12.6s
合計テスト数 3 誤答テスト数 1 合計コスト $0.831 応答時間（平均） 12.6s
#58	GPT-5.3 Chat none	OpenAI	3.5	7.5	$0.571	0/3	13.0s
合計テスト数 3 誤答テスト数 3 合計コスト $0.571 応答時間（平均） 13.0s
#4	Gemini 3.5 Flash high	Google	7.6	9.5	$1.976	2/3	14.1s
合計テスト数 3 誤答テスト数 1 合計コスト $1.976 応答時間（平均） 14.1s

ドメイン特化ランキング

モデルを絞り込む

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル

ドメイン特化 ランキング

モデルを絞り込む

ドメイン特化 スコア 上位モデル

ドメイン特化 スコア vs 合計コスト

応答時間（平均） 上位モデル

ドメイン特化ランキング

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル