指示追従モデルランキング

指示追従でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

平均指示追従スコア

8.6

最良モデル

Granite 4.1 8B 3.6

失敗理由

失敗理由不正解で61 失敗理由指示に従っていないで19 失敗理由余分な書式で3 失敗理由回答なしで2 失敗理由 API エラーで1 失敗理由タイムアウトで1

216/216

順位	モデル	企業	指示追従スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
合計テスト数 2 誤答テスト数 0 合計コスト $3.059 応答時間（平均） 2.43s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
合計テスト数 2 誤答テスト数 0 合計コスト $1.316 応答時間（平均） 2.50s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
合計テスト数 2 誤答テスト数 1 合計コスト $0.045 応答時間（平均） 2.51s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
合計テスト数 2 誤答テスト数 0 合計コスト $0.387 応答時間（平均） 2.53s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
合計テスト数 2 誤答テスト数 0 合計コスト $0.068 応答時間（平均） 2.57s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
合計テスト数 2 誤答テスト数 0 合計コスト $0.467 応答時間（平均） 2.58s
#118	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
合計テスト数 2 誤答テスト数 1 合計コスト $0.548 応答時間（平均） 2.58s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
合計テスト数 2 誤答テスト数 0 合計コスト $0.117 応答時間（平均） 2.59s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
合計テスト数 2 誤答テスト数 0 合計コスト $2.057 応答時間（平均） 2.61s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
合計テスト数 2 誤答テスト数 0 合計コスト $0.476 応答時間（平均） 2.61s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
合計テスト数 2 誤答テスト数 0 合計コスト $0.643 応答時間（平均） 2.62s
#154	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
合計テスト数 2 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 2.63s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
合計テスト数 2 誤答テスト数 0 合計コスト $0.482 応答時間（平均） 2.67s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
合計テスト数 2 誤答テスト数 1 合計コスト $0.127 応答時間（平均） 2.67s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
合計テスト数 2 誤答テスト数 0 合計コスト $0.642 応答時間（平均） 2.70s

指示追従ランキング

モデルを絞り込む

指示追従スコア上位モデル

指示追従スコア vs 合計コスト

応答時間（平均）上位モデル

指示追従 ランキング

モデルを絞り込む

指示追従 スコア 上位モデル

指示追従 スコア vs 合計コスト

応答時間（平均） 上位モデル

指示追従ランキング

指示追従スコア上位モデル

指示追従スコア vs 合計コスト

応答時間（平均）上位モデル