AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY カテゴリ

指示追従 ランキング

指示追従 でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。

表示モデル数

15

平均 指示追従 スコア

8.0

順位 モデル 企業 指示追従 スコア スコア 正解テスト 応答時間(平均)
#94 MiMo-V2-Flash none Xiaomi 6.5 4.5 1/2 857ms
#21 Gemini 3 Flash Preview none Google 6.4 8.1 1/2 1.58s
#33 GLM 5.1 medium Z.ai 6.4 7.8 1/2 7.47s
#97 Qwen3.5-9B medium Qwen 6.4 4.4 1/2 17.1s
#72 Hunter Alpha none OpenRouter 6.4 5.7 1/2 2.82s
#59 Qwen3.5-Flash none Qwen 6.3 6.2 1/2 8.81s
#63 Qwen3.5-35B-A3B none Qwen 6.3 6.1 1/2 809ms
#86 GPT-5.4 Mini none OpenAI 6.3 5.1 1/2 728ms
#93 GLM 4.7 Flash medium Z.ai 6.2 4.6 1/2 2.97s
#96 GPT-5.4 Nano none OpenAI 5.0 4.5 0/2 787ms
#88 Nemotron 3 Super none NVIDIA 4.9 5.1 0/2 1.50s
#67 Qwen3.5-27B none Qwen 4.8 5.9 0/2 815ms
#79 Grok 4.20 Beta none X AI 4.8 5.3 0/2 687ms
#82 Grok 4.20 none X AI 4.8 5.2 0/2 455ms
#87 Qwen3 Coder Next none Qwen 4.8 5.1 0/2 7.71s

指示追従 スコア 上位モデル

指示追従 スコア vs 合計コスト

応答時間(平均) 上位モデル