ツール呼び出しモデルランキング

ツール呼び出しでどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

平均ツール呼び出しスコア

8.8

最良モデル

Kimi K3 3.0

失敗理由

失敗理由 API エラーで17 失敗理由無効なツール呼び出しで9 失敗理由指示に従っていないで8 失敗理由不正解で3 失敗理由回答なしで2

216/216

順位	モデル	企業	ツール呼び出しスコア	スコア	合計コスト	正解テスト	応答時間（平均）
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	1/1	9.73s
合計テスト数 1 誤答テスト数 0 合計コスト $3.059 応答時間（平均） 9.73s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
合計テスト数 1 誤答テスト数 0 合計コスト $1.785 応答時間（平均） 9.76s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	1/1	9.84s
合計テスト数 1 誤答テスト数 0 合計コスト $0.323 応答時間（平均） 9.84s
#30	Muse Spark 1.1 high	Meta	9.6	8.1	$1.694	1/1	9.88s
合計テスト数 1 誤答テスト数 0 合計コスト $1.694 応答時間（平均） 9.88s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
合計テスト数 1 誤答テスト数 0 合計コスト $0.469 応答時間（平均） 10.0s
#24	GPT-5.2 medium	OpenAI	4.7	8.4	$0.951	0/1	10.3s
合計テスト数 1 誤答テスト数 1 合計コスト $0.951 応答時間（平均） 10.3s
#120	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	1/1	10.3s
合計テスト数 1 誤答テスト数 0 合計コスト $0.139 応答時間（平均） 10.3s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	1/1	10.6s
合計テスト数 1 誤答テスト数 0 合計コスト $4.137 応答時間（平均） 10.6s
#64	LongCat 2.0 medium	Meituan	10.0	7.4	$0.478	1/1	10.7s
合計テスト数 1 誤答テスト数 0 合計コスト $0.478 応答時間（平均） 10.7s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
合計テスト数 1 誤答テスト数 0 合計コスト $0.164 応答時間（平均） 10.7s
#26	Claude Sonnet 5 medium	Anthropic	10.0	8.3	$0.922	1/1	10.7s
合計テスト数 1 誤答テスト数 0 合計コスト $0.922 応答時間（平均） 10.7s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
合計テスト数 1 誤答テスト数 0 合計コスト $0.391 応答時間（平均） 10.8s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	1/1	11.1s
合計テスト数 1 誤答テスト数 0 合計コスト $0.041 応答時間（平均） 11.1s
#194	Cobuddy medium	Baidu	10.0	4.7	$0.000	1/1	11.2s
合計テスト数 1 誤答テスト数 0 合計コスト $0.000 応答時間（平均） 11.2s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	1/1	11.8s
合計テスト数 1 誤答テスト数 0 合計コスト $0.054 応答時間（平均） 11.8s

ツール呼び出しランキング

モデルを絞り込む

ツール呼び出しスコア上位モデル

ツール呼び出しスコア vs 合計コスト

応答時間（平均）上位モデル

ツール呼び出し ランキング

モデルを絞り込む

ツール呼び出し スコア 上位モデル

ツール呼び出し スコア vs 合計コスト

応答時間（平均） 上位モデル

ツール呼び出しランキング

ツール呼び出しスコア上位モデル

ツール呼び出しスコア vs 合計コスト

応答時間（平均）上位モデル