ツール呼び出しモデルランキング

ツール呼び出しでどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

平均ツール呼び出しスコア

8.8

最良モデル

Kimi K3 3.0

失敗理由

失敗理由 API エラーで17 失敗理由無効なツール呼び出しで9 失敗理由指示に従っていないで8 失敗理由不正解で3 失敗理由回答なしで2

216/216

順位	モデル	企業	ツール呼び出しスコア	スコア	合計コスト	正解テスト	応答時間（平均）
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	6.1	$0.122	1/1	4.42s
合計テスト数 1 誤答テスト数 0 合計コスト $0.122 応答時間（平均） 4.42s
#123	GPT-5.6 Luna low	OpenAI	10.0	6.2	$0.249	1/1	4.43s
合計テスト数 1 誤答テスト数 0 合計コスト $0.249 応答時間（平均） 4.43s
#144	Kimi K2.6 none	Moonshot AI	10.0	5.8	$0.184	1/1	4.46s
合計テスト数 1 誤答テスト数 0 合計コスト $0.184 応答時間（平均） 4.46s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	10.0	5.4	$0.041	1/1	4.47s
合計テスト数 1 誤答テスト数 0 合計コスト $0.041 応答時間（平均） 4.47s
#36	Inkling medium	Thinkingmachines	3.0	8.0	$0.391	0/1	4.48s
合計テスト数 1 誤答テスト数 1 合計コスト $0.391 応答時間（平均） 4.48s
#69	Gemini 3.1 Flash Lite medium	Google	10.0	7.3	$0.117	1/1	4.55s
合計テスト数 1 誤答テスト数 0 合計コスト $0.117 応答時間（平均） 4.55s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	1/1	4.60s
合計テスト数 1 誤答テスト数 0 合計コスト $1.046 応答時間（平均） 4.60s
#203	Grok 4.20 none	X AI	10.0	4.1	$0.057	1/1	4.63s
合計テスト数 1 誤答テスト数 0 合計コスト $0.057 応答時間（平均） 4.63s
#125	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	1/1	4.65s
合計テスト数 1 誤答テスト数 0 合計コスト $0.837 応答時間（平均） 4.65s
#34	GPT-5.2 Chat none	OpenAI	10.0	8.0	$0.604	1/1	4.68s
合計テスト数 1 誤答テスト数 0 合計コスト $0.604 応答時間（平均） 4.68s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	1/1	4.74s
合計テスト数 1 誤答テスト数 0 合計コスト $0.505 応答時間（平均） 4.74s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	1/1	4.77s
合計テスト数 1 誤答テスト数 0 合計コスト $0.048 応答時間（平均） 4.77s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	10.0	5.6	$0.077	1/1	4.77s
合計テスト数 1 誤答テスト数 0 合計コスト $0.077 応答時間（平均） 4.77s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	1/1	4.78s
合計テスト数 1 誤答テスト数 0 合計コスト $0.517 応答時間（平均） 4.78s
#197	Grok 4.20 Beta none	X AI	10.0	4.4	$0.087	1/1	4.79s
合計テスト数 1 誤答テスト数 0 合計コスト $0.087 応答時間（平均） 4.79s

ツール呼び出しランキング

モデルを絞り込む

ツール呼び出しスコア上位モデル

ツール呼び出しスコア vs 合計コスト

応答時間（平均）上位モデル

ツール呼び出し ランキング

モデルを絞り込む

ツール呼び出し スコア 上位モデル

ツール呼び出し スコア vs 合計コスト

応答時間（平均） 上位モデル

ツール呼び出しランキング

ツール呼び出しスコア上位モデル

ツール呼び出しスコア vs 合計コスト

応答時間（平均）上位モデル