指示追従モデルランキング

指示追従でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

平均指示追従スコア

8.5

最良モデル

Granite 4.1 8B 3.6

失敗理由

失敗理由不正解で61 失敗理由指示に従っていないで18 失敗理由余分な書式で3 失敗理由回答なしで2 失敗理由 API エラーで1 失敗理由タイムアウトで1

210/210

順位	モデル	企業	指示追従スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.095 応答時間（平均） 728ms
#168	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.025 応答時間（平均） 751ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.001 応答時間（平均） 752ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.041 応答時間（平均） 784ms
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.008 応答時間（平均） 804ms
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.106 応答時間（平均） 809ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
合計テスト数 2 誤答テスト数 2 合計コスト $0.008 応答時間（平均） 822ms
#200	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.025 応答時間（平均） 857ms
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
合計テスト数 2 誤答テスト数 0 合計コスト $0.046 応答時間（平均） 859ms
#176	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.016 応答時間（平均） 888ms
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.300 応答時間（平均） 893ms
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
合計テスト数 2 誤答テスト数 1 合計コスト $0.106 応答時間（平均） 929ms
#120	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
合計テスト数 2 誤答テスト数 0 合計コスト $0.047 応答時間（平均） 932ms
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
合計テスト数 2 誤答テスト数 0 合計コスト $0.197 応答時間（平均） 943ms
#195	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
合計テスト数 2 誤答テスト数 0 合計コスト $0.000 応答時間（平均） 987ms

指示追従ランキング

モデルを絞り込む

指示追従スコア上位モデル

指示追従スコア vs 合計コスト

応答時間（平均）上位モデル

指示追従 ランキング

モデルを絞り込む

指示追従 スコア 上位モデル

指示追従 スコア vs 合計コスト

応答時間（平均） 上位モデル

指示追従ランキング

指示追従スコア上位モデル

指示追従スコア vs 合計コスト

応答時間（平均）上位モデル