AI BENCHY
Advertise here

AI BENCHY カテゴリ

指示追従 ランキング

指示追従 でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。 並び替え: 正解テスト ↓.

表示モデル数

15

平均 指示追従 スコア

8.5

順位 モデル 企業 指示追従 スコア スコア 正解テスト 応答時間(平均)
#1 Gemini 3 Flash Preview medium Google 10.0 9.8 2/2 4.04s
#2 Gemini 3.5 Flash high Google 10.0 9.6 2/2 3.35s
#3 Gemini 3.5 Flash low Google 9.9 9.4 2/2 1.86s
#4 Gemini 3.1 Pro Preview medium Google 10.0 9.4 2/2 9.56s
#5 Qwen3.7 Max medium Qwen 10.0 9.1 2/2 7.46s
#6 GPT-5.5 low OpenAI 9.9 9.0 2/2 3.74s
#7 Gemini 3.5 Flash medium Google 9.9 9.0 2/2 2.70s
#8 Claude Opus 4.7 none Anthropic 10.0 8.9 2/2 1.46s
#9 GPT-5.5 medium OpenAI 10.0 8.8 2/2 3.36s
#10 Claude Opus 4.8 medium Anthropic 10.0 8.7 2/2 3.32s
#11 Claude Opus 4.7 medium Anthropic 10.0 8.7 2/2 1.57s
#12 Gemini 3.1 Flash Lite Preview high Google 9.8 8.6 2/2 64.0s
#13 Grok 4.20 Beta medium X AI 9.8 8.5 2/2 4.89s
#14 Qwen3.6 Max Preview medium Qwen 10.0 8.5 2/2 24.3s
#15 GPT-5.3-Codex medium OpenAI 10.0 8.4 2/2 3.04s

指示追従 スコア 上位モデル

指示追従 スコア vs 合計コスト

応答時間(平均) 上位モデル