指示追従モデルランキング

指示追従でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。

表示モデル数

平均指示追従スコア

8.6

最良モデル

Gemini 3 Flash Preview 10.0

失敗理由

失敗理由不正解で61 失敗理由指示に従っていないで19 失敗理由余分な書式で3 失敗理由回答なしで2 失敗理由 API エラーで1 失敗理由タイムアウトで1

216/216

順位	モデル	企業	指示追従スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#48	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
合計テスト数 2 誤答テスト数 0 合計コスト $1.017 応答時間（平均） 1.79s
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
合計テスト数 2 誤答テスト数 0 合計コスト $0.352 応答時間（平均） 2.38s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
合計テスト数 2 誤答テスト数 0 合計コスト $0.740 応答時間（平均） 5.39s
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
合計テスト数 2 誤答テスト数 0 合計コスト $0.177 応答時間（平均） 7.02s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
合計テスト数 2 誤答テスト数 0 合計コスト $0.117 応答時間（平均） 2.59s
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
合計テスト数 2 誤答テスト数 0 合計コスト $1.166 応答時間（平均） 1.37s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
合計テスト数 2 誤答テスト数 0 合計コスト $0.482 応答時間（平均） 2.67s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
合計テスト数 2 誤答テスト数 0 合計コスト $0.467 応答時間（平均） 2.58s
#88	MiMo-V2.5-Pro medium	Xiaomi	9.9	6.9	$0.187	2/2	2.77s
合計テスト数 2 誤答テスト数 0 合計コスト $0.187 応答時間（平均） 2.77s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
合計テスト数 2 誤答テスト数 0 合計コスト $0.457 応答時間（平均） 3.74s
#107	MiMo-V2.5 medium	Xiaomi	9.9	6.5	$0.082	2/2	1.80s
合計テスト数 2 誤答テスト数 0 合計コスト $0.082 応答時間（平均） 1.80s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
合計テスト数 2 誤答テスト数 0 合計コスト $0.333 応答時間（平均） 3.36s
#127	gpt-oss-120b medium	OpenAI	9.9	6.1	$0.019	2/2	7.63s
合計テスト数 2 誤答テスト数 0 合計コスト $0.019 応答時間（平均） 7.63s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
合計テスト数 2 誤答テスト数 0 合計コスト $0.067 応答時間（平均） 1.75s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
合計テスト数 2 誤答テスト数 0 合計コスト $0.000 応答時間（平均） 4.18s

指示追従ランキング

モデルを絞り込む

指示追従スコア上位モデル

指示追従スコア vs 合計コスト

応答時間（平均）上位モデル

指示追従 ランキング

モデルを絞り込む

指示追従 スコア 上位モデル

指示追従 スコア vs 合計コスト

応答時間（平均） 上位モデル

指示追従ランキング

指示追従スコア上位モデル

指示追従スコア vs 合計コスト

応答時間（平均）上位モデル