ツール呼び出しモデルランキング

ツール呼び出しでどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↓.

表示モデル数

平均ツール呼び出しスコア

8.8

最良モデル

Ring-2.6-1T 10.0

失敗理由

失敗理由 API エラーで17 失敗理由無効なツール呼び出しで9 失敗理由指示に従っていないで8 失敗理由不正解で3 失敗理由回答なしで2

216/216

順位	モデル	企業	ツール呼び出しスコア	スコア	合計コスト	正解テスト	応答時間（平均）
#200	GLM 4.7 Flash medium	Z.ai	10.0	4.3	$0.166	1/1	15.9s
合計テスト数 1 誤答テスト数 0 合計コスト $0.166 応答時間（平均） 15.9s
#46	GLM 5 medium	Z.ai	10.0	7.7	$0.307	1/1	15.9s
合計テスト数 1 誤答テスト数 0 合計コスト $0.307 応答時間（平均） 15.9s
#50	DeepSeek V4 Pro high	DeepSeek	9.8	7.7	$0.200	1/1	15.9s
合計テスト数 1 誤答テスト数 0 合計コスト $0.200 応答時間（平均） 15.9s
#101	GLM 5.2 none	Z.ai	10.0	6.6	$0.128	1/1	15.8s
合計テスト数 1 誤答テスト数 0 合計コスト $0.128 応答時間（平均） 15.8s
#196	MiniMax M2.5 medium	Minimax	10.0	4.6	$0.340	1/1	15.4s
合計テスト数 1 誤答テスト数 0 合計コスト $0.340 応答時間（平均） 15.4s
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	1/1	15.0s
合計テスト数 1 誤答テスト数 0 合計コスト $0.018 応答時間（平均） 15.0s
#40	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	1/1	15.0s
合計テスト数 1 誤答テスト数 0 合計コスト $0.267 応答時間（平均） 15.0s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	1/1	14.7s
合計テスト数 1 誤答テスト数 0 合計コスト $0.317 応答時間（平均） 14.7s
#161	Kimi K2.5 none	Moonshot AI	10.0	5.5	$0.127	1/1	14.0s
合計テスト数 1 誤答テスト数 0 合計コスト $0.127 応答時間（平均） 14.0s
#140	Mimo V2 Omni medium	Xiaomi	10.0	5.9	$0.683	1/1	14.0s
合計テスト数 1 誤答テスト数 0 合計コスト $0.683 応答時間（平均） 14.0s
#79	Grok 4.20 medium	X AI	3.0	7.1	$0.777	0/1	13.7s
合計テスト数 1 誤答テスト数 1 合計コスト $0.777 応答時間（平均） 13.7s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	1/1	13.3s
合計テスト数 1 誤答テスト数 0 合計コスト $1.533 応答時間（平均） 13.3s
#52	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	1/1	13.1s
合計テスト数 1 誤答テスト数 0 合計コスト $1.097 応答時間（平均） 13.1s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
合計テスト数 1 誤答テスト数 0 合計コスト $0.742 応答時間（平均） 12.6s
#98	GLM 5V Turbo medium	Z.ai	7.0	6.7	$0.457	0/1	12.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.457 応答時間（平均） 12.5s

ツール呼び出しランキング

モデルを絞り込む

ツール呼び出しスコア上位モデル

ツール呼び出しスコア vs 合計コスト

応答時間（平均）上位モデル

ツール呼び出し ランキング

モデルを絞り込む

ツール呼び出し スコア 上位モデル

ツール呼び出し スコア vs 合計コスト

応答時間（平均） 上位モデル

ツール呼び出しランキング

ツール呼び出しスコア上位モデル

ツール呼び出しスコア vs 合計コスト

応答時間（平均）上位モデル