AI BENCHY
Your ad here

AI BENCHY カテゴリ

ツール呼び出し ランキング

ツール呼び出し でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。 並び替え: 指標 ↑.

表示モデル数

15

平均 ツール呼び出し スコア

8.7

最良モデル

Grok 4.1 Fast 2.8
順位 モデル 企業 ツール呼び出し スコア スコア 正解テスト 応答時間(平均)
#49 Qwen3.5 Plus 2026-02-15 none Qwen 10.0 6.8 1/1 3.33s
#50 Hunter Alpha medium OpenRouter 10.0 6.7 1/1 17.3s
#51 Nemotron 3 Super medium NVIDIA 10.0 6.7 1/1 39.7s
#53 GLM 5 none Z.ai 10.0 6.6 1/1 11.1s
#54 Mercury 2 medium Inception 10.0 6.5 1/1 1.89s
#55 MiMo-V2-Omni none Xiaomi 10.0 6.5 1/1 2.76s
#57 GPT-5 Nano medium OpenAI 10.0 6.3 1/1 33.3s
#58 GLM 5V Turbo none Z.ai 10.0 6.2 1/1 4.86s
#59 Qwen3.5-Flash none Qwen 10.0 6.2 1/1 3.67s
#60 Gemma 4 26B A4B none Google 10.0 6.2 1/1 57.1s
#61 Seed-2.0-Lite none Bytedance Seed 10.0 6.2 1/1 3.94s
#62 Gemini 2.5 Flash none Google 10.0 6.2 1/1 1.91s
#63 Qwen3.5-35B-A3B none Qwen 10.0 6.1 1/1 2.30s
#64 DeepSeek V3.2 none DeepSeek 10.0 6.1 1/1 11.8s
#65 MiMo-V2-Pro none Xiaomi 10.0 6.0 1/1 4.39s

ツール呼び出し スコア 上位モデル

ツール呼び出し スコア vs 合計コスト

応答時間(平均) 上位モデル