ドメイン特化モデルランキング

ドメイン特化でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↓.

表示モデル数

平均ドメイン特化スコア

4.7

最良モデル

Kimi K3 5.9

失敗理由

失敗理由不正解で412 失敗理由タイムアウトで43 失敗理由余分な書式で17 失敗理由回答なしで8 失敗理由 API エラーで7 失敗理由指示に従っていないで1

210/210

順位	モデル	企業	ドメイン特化スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#33	Kimi K3 max	Moonshot AI	5.9	8.0	$3.112	1/3	490.1s
合計テスト数 3 誤答テスト数 2 合計コスト $3.112 応答時間（平均） 490.1s
#97	LongCat 2.0 high	Meituan	3.6	6.6	$0.469	0/3	400.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.469 応答時間（平均） 400.3s
#60	LongCat 2.0 medium	Meituan	2.9	7.4	$0.478	0/3	339.9s
合計テスト数 3 誤答テスト数 3 合計コスト $0.478 応答時間（平均） 339.9s
#12	Grok 4.5 high	X AI	3.6	8.9	$1.707	0/3	332.1s
合計テスト数 3 誤答テスト数 3 合計コスト $1.707 応答時間（平均） 332.1s
#190	MiniMax M2.5 medium	Minimax	2.9	4.6	$0.340	0/3	237.3s
合計テスト数 3 誤答テスト数 3 合計コスト $0.340 応答時間（平均） 237.3s
#47	MiniMax M3 medium	Minimax	5.5	7.6	$0.286	1/3	233.1s
合計テスト数 3 誤答テスト数 2 合計コスト $0.286 応答時間（平均） 233.1s
#52	Kimi K2.7 Code medium	Moonshot AI	5.5	7.5	$0.751	1/3	213.3s
合計テスト数 3 誤答テスト数 2 合計コスト $0.751 応答時間（平均） 213.3s
#128	GPT-5 Nano medium	OpenAI	5.2	6.1	$0.114	1/3	204.0s
合計テスト数 3 誤答テスト数 2 合計コスト $0.114 応答時間（平均） 204.0s
#68	Kimi K2.6 medium	Moonshot AI	5.3	7.2	$1.036	1/3	202.4s
合計テスト数 3 誤答テスト数 2 合計コスト $1.036 応答時間（平均） 202.4s
#22	Grok 4.5 medium	X AI	2.9	8.3	$1.928	0/3	198.9s
合計テスト数 3 誤答テスト数 3 合計コスト $1.928 応答時間（平均） 198.9s
#28	Inkling high	Thinkingmachines	7.7	8.0	$1.006	2/3	186.4s
合計テスト数 3 誤答テスト数 1 合計コスト $1.006 応答時間（平均） 186.4s
#73	Grok 4.3 medium	X AI	5.3	7.1	$0.779	1/3	181.7s
合計テスト数 3 誤答テスト数 2 合計コスト $0.779 応答時間（平均） 181.7s
#194	GLM 4.7 Flash medium	Z.ai	3.5	4.3	$0.166	0/3	174.6s
合計テスト数 3 誤答テスト数 3 合計コスト $0.166 応答時間（平均） 174.6s
#130	Step 3.5 Flash medium	Stepfun	5.3	6.0	$0.108	1/3	170.5s
合計テスト数 3 誤答テスト数 2 合計コスト $0.108 応答時間（平均） 170.5s
#10	GPT-5.5 medium	OpenAI	5.3	9.0	$4.137	1/3	164.1s
合計テスト数 3 誤答テスト数 2 合計コスト $4.137 応答時間（平均） 164.1s

ドメイン特化ランキング

モデルを絞り込む

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル

ドメイン特化 ランキング

モデルを絞り込む

ドメイン特化 スコア 上位モデル

ドメイン特化 スコア vs 合計コスト

応答時間（平均） 上位モデル

ドメイン特化ランキング

ドメイン特化スコア上位モデル

ドメイン特化スコア vs 合計コスト

応答時間（平均）上位モデル