ツール呼び出しモデルランキング | AI BENCHY

AI BENCHY カテゴリ

ツール呼び出しでどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↓.

表示モデル数

15

平均ツール呼び出しスコア

8.7

最良モデル

Ring-2.6-1T 10.0

失敗理由

失敗理由 API エラーで15 失敗理由無効なツール呼び出しで7 失敗理由指示に従っていないで6 失敗理由不正解で2 失敗理由回答なしで2

順位	モデル	企業	ツール呼び出しスコア	スコア	正解テスト	応答時間（平均）
#133	DeepSeek V3.2 none	DeepSeek	10.0	5.2	1/1	11.8s
#119	Cobuddy medium	Baidu	10.0	5.6	1/1	11.2s
#98	GLM 5 none	Z.ai	10.0	6.1	1/1	11.1s
#112	GLM 5.1 none	Z.ai	10.0	5.7	1/1	10.7s
#9	GPT-5.5 medium	OpenAI	10.0	8.8	1/1	10.6s
#49	Qwen3.5-Flash medium	Qwen	10.0	7.4	1/1	10.3s
#42	GPT-5.2 medium	OpenAI	4.7	7.5	0/1	10.3s
#23	GLM 5 Turbo medium	Z.ai	10.0	8.0	1/1	9.84s
#69	Claude Opus 4.6 medium	Anthropic	10.0	7.0	1/1	9.73s
#45	GPT-5.4 Mini medium	OpenAI	4.7	7.5	0/1	9.62s
#50	Gemini 3.1 Flash Lite Preview low	Google	10.0	7.4	1/1	9.54s
#37	Gemma 4 26B A4B medium	Google	10.0	7.6	1/1	9.01s
#10	Claude Opus 4.8 medium	Anthropic	10.0	8.7	1/1	8.96s
#60	Kimi K2.6 medium	Moonshot AI	10.0	7.2	1/1	8.92s
#63	GPT-5.3 Chat none	OpenAI	10.0	7.2	1/1	8.36s

ツール呼び出しスコア上位モデル

ツール呼び出しスコア vs 合計コスト

応答時間（平均）上位モデル