指示追従モデルランキング

指示追従でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 指標 ↑.

表示モデル数

平均指示追従スコア

8.6

最良モデル

Grok 4.1 Fast 3.0

失敗理由

失敗理由不正解で61 失敗理由指示に従っていないで19 失敗理由余分な書式で3 失敗理由回答なしで2 失敗理由 API エラーで1 失敗理由タイムアウトで1

216/216

順位	モデル	企業	指示追従スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
合計テスト数 2 誤答テスト数 0 合計コスト $0.571 応答時間（平均） 3.51s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
合計テスト数 2 誤答テスト数 0 合計コスト $0.756 応答時間（平均） 2.13s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
合計テスト数 2 誤答テスト数 0 合計コスト $0.454 応答時間（平均） 1.58s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
合計テスト数 2 誤答テスト数 0 合計コスト $0.777 応答時間（平均） 4.26s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
合計テスト数 2 誤答テスト数 0 合計コスト $1.207 応答時間（平均） 1.52s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	2/2	869ms
合計テスト数 2 誤答テスト数 0 合計コスト $0.145 応答時間（平均） 869ms
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
合計テスト数 2 誤答テスト数 0 合計コスト $0.128 応答時間（平均） 3.84s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
合計テスト数 2 誤答テスト数 0 合計コスト $0.231 応答時間（平均） 1.40s
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
合計テスト数 2 誤答テスト数 0 合計コスト $0.369 応答時間（平均） 1.59s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
合計テスト数 2 誤答テスト数 0 合計コスト $0.068 応答時間（平均） 2.57s
#114	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
合計テスト数 2 誤答テスト数 0 合計コスト $0.103 応答時間（平均） 11.8s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
合計テスト数 2 誤答テスト数 0 合計コスト $0.187 応答時間（平均） 1.81s
#134	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
合計テスト数 2 誤答テスト数 0 合計コスト $0.114 応答時間（平均） 15.6s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
合計テスト数 2 誤答テスト数 0 合計コスト $0.750 応答時間（平均） 4.89s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
合計テスト数 2 誤答テスト数 0 合計コスト $0.385 応答時間（平均） 3.26s

指示追従ランキング

モデルを絞り込む

指示追従スコア上位モデル

指示追従スコア vs 合計コスト

応答時間（平均）上位モデル

指示追従 ランキング

モデルを絞り込む

指示追従 スコア 上位モデル

指示追従 スコア vs 合計コスト

応答時間（平均） 上位モデル

指示追従ランキング

指示追従スコア上位モデル

指示追従スコア vs 合計コスト

応答時間（平均）上位モデル