ドメイン特化モデルランキング

ドメイン特化でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 指標 ↑.

表示モデル数

平均ドメイン特化スコア

4.7

最良モデル

GLM 5 Turbo 2.9

失敗理由

失敗理由不正解で412 失敗理由タイムアウトで43 失敗理由余分な書式で17 失敗理由回答なしで8 失敗理由 API エラーで7 失敗理由指示に従っていないで1

210/210

順位	モデル	企業	ドメイン特化スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#49	GLM 5 Turbo medium	Z.ai	2.9	7.6	$0.323	0/3	71.1s
合計テスト数 3 誤答テスト数 3 合計コスト $0.323 応答時間（平均） 71.1s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	2.9	7.2	$0.482	0/3	35.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.482 応答時間（平均） 35.3s
#76	DeepSeek V3.2 medium	DeepSeek	2.9	7.0	$0.078	0/3	24.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.078 応答時間（平均） 24.3s
#95	Gemma 4 26B A4B medium	Google	2.9	6.6	$0.089	0/3	23.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.089 応答時間（平均） 23.6s
#121	gpt-oss-120b medium	OpenAI	2.9	6.1	$0.019	0/3	50.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.019 応答時間（平均） 50.9s
#140	Nemotron 3 Super medium	NVIDIA	2.9	5.7	$0.050	0/3	16.2s
合計テスト数 3 誤答テスト数 3 合計コスト $0.050 応答時間（平均） 16.2s
#180	GPT-5.4 Nano none	OpenAI	2.9	4.8	$0.041	0/3	926ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.041 応答時間（平均） 926ms
#188	Cobuddy medium	Baidu	2.9	4.7	$0.000	0/3	128.2s
合計テスト数 3 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 128.2s
#190	MiniMax M2.5 medium	Minimax	2.9	4.6	$0.340	0/3	237.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.340 応答時間（平均） 237.3s
#19	Qwen3.6 Max Preview medium	Qwen	2.9	8.4	$1.143	0/3	95.9s
合計テスト数 3 誤答テスト数 3 合計コスト $1.143 応答時間（平均） 95.9s
#22	Grok 4.5 medium	X AI	2.9	8.3	$1.928	0/3	198.9s
合計テスト数 3 誤答テスト数 3 合計コスト $1.928 応答時間（平均） 198.9s
#24	Muse Spark 1.1 low	Meta	2.9	8.3	$0.647	0/3	29.7s
合計テスト数 3 誤答テスト数 3 合計コスト $0.647 応答時間（平均） 29.7s
#37	Qwen3.6 Plus medium	Qwen	2.9	7.8	$0.405	0/3	29.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.405 応答時間（平均） 29.6s
#40	Claude Sonnet 4.6 medium	Anthropic	2.9	7.8	$2.057	0/3	0ms
合計テスト数 3 誤答テスト数 3 合計コスト $2.057 応答時間（平均） 0ms
#60	LongCat 2.0 medium	Meituan	2.9	7.4	$0.478	0/3	339.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.478 応答時間（平均） 339.9s

ドメイン特化ランキング

モデルを絞り込む

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル

ドメイン特化 ランキング

モデルを絞り込む

ドメイン特化 スコア 上位モデル

ドメイン特化 スコア vs 合計コスト

応答時間（平均） 上位モデル

ドメイン特化ランキング

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル