AI BENCHY
Advertise here

AI BENCHY カテゴリ

指示追従 ランキング

指示追従 でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。 並び替え: 正解テスト ↓.

表示モデル数

15

平均 指示追従 スコア

8.5

順位 モデル 企業 指示追従 スコア スコア 正解テスト 応答時間(平均)
#31 DeepSeek V4 Flash high DeepSeek 10.0 7.7 2/2 15.4s
#33 Hy3 preview medium Tencent 10.0 7.7 2/2 6.16s
#34 Qwen3.7 Max none Qwen 10.0 7.7 2/2 943ms
#35 Gemini 3 PRO Preview medium Google 9.8 7.6 2/2 3.26s
#36 Qwen3.5 Plus 2026-04-20 medium Qwen 10.0 7.6 2/2 20.2s
#37 Gemma 4 26B A4B medium Google 10.0 7.6 2/2 17.5s
#38 Grok 4.3 medium X AI 9.8 7.6 2/2 18.6s
#39 Qwen3.6 Flash medium Qwen 10.0 7.5 2/2 6.05s
#40 Gemini 3.1 Flash Lite Preview medium Google 10.0 7.5 2/2 1.91s
#41 Nemotron 3 Ultra 550b A55b medium NVIDIA 9.8 7.5 2/2 6.35s
#42 GPT-5.2 medium OpenAI 9.9 7.5 2/2 3.12s
#43 MiMo-V2.5-Pro medium Xiaomi 9.9 7.5 2/2 2.77s
#44 Gemini 3.1 Flash Lite medium Google 9.9 7.5 2/2 2.59s
#45 GPT-5.4 Mini medium OpenAI 9.8 7.5 2/2 2.13s
#46 Qwen3.6 35B A3B medium Qwen 10.0 7.4 2/2 7.50s

指示追従 スコア 上位モデル

指示追従 スコア vs 合計コスト

応答時間(平均) 上位モデル