ツール呼び出しモデルランキング

ツール呼び出しでどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

平均ツール呼び出しスコア

8.7

最良モデル

Kimi K3 3.0

失敗理由

失敗理由 API エラーで17 失敗理由無効なツール呼び出しで9 失敗理由指示に従っていないで8 失敗理由不正解で3 失敗理由回答なしで2

210/210

順位	モデル	企業	ツール呼び出しスコア	スコア	合計コスト	正解テスト	応答時間（平均）
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.001 応答時間（平均） 0ms
#189	Mercury 2 none	Inception	10.0	4.6	$0.030	1/1	1.27s
合計テスト数 1 誤答テスト数 0 合計コスト $0.030 応答時間（平均） 1.27s
#169	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
合計テスト数 1 誤答テスト数 0 合計コスト $0.021 応答時間（平均） 1.27s
#160	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
合計テスト数 1 誤答テスト数 0 合計コスト $0.008 応答時間（平均） 1.36s
#165	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
合計テスト数 1 誤答テスト数 0 合計コスト $0.022 応答時間（平均） 1.40s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	1/1	1.89s
合計テスト数 1 誤答テスト数 0 合計コスト $0.093 応答時間（平均） 1.89s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	1/1	1.91s
合計テスト数 1 誤答テスト数 0 合計コスト $0.017 応答時間（平均） 1.91s
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
合計テスト数 1 誤答テスト数 1 合計コスト $0.004 応答時間（平均） 1.93s
#142	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
合計テスト数 1 誤答テスト数 0 合計コスト $0.247 応答時間（平均） 2.04s
#201	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.007	1/1	2.17s
合計テスト数 1 誤答テスト数 0 合計コスト $0.007 応答時間（平均） 2.17s
#200	MiMo-V2-Flash none	Xiaomi	10.0	4.0	$0.025	1/1	2.28s
合計テスト数 1 誤答テスト数 0 合計コスト $0.025 応答時間（平均） 2.28s
#127	Qwen3.5-35B-A3B none	Qwen	10.0	6.1	$0.106	1/1	2.30s
合計テスト数 1 誤答テスト数 0 合計コスト $0.106 応答時間（平均） 2.30s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
合計テスト数 1 誤答テスト数 1 合計コスト $0.095 応答時間（平均） 2.32s
#168	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
合計テスト数 1 誤答テスト数 0 合計コスト $0.025 応答時間（平均） 2.43s
#166	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
合計テスト数 1 誤答テスト数 0 合計コスト $0.025 応答時間（平均） 2.47s

ツール呼び出しランキング

モデルを絞り込む

ツール呼び出しスコア上位モデル

ツール呼び出しスコア vs 合計コスト

応答時間（平均）上位モデル

ツール呼び出し ランキング

モデルを絞り込む

ツール呼び出し スコア 上位モデル

ツール呼び出し スコア vs 合計コスト

応答時間（平均） 上位モデル

ツール呼び出しランキング

ツール呼び出しスコア上位モデル

ツール呼び出しスコア vs 合計コスト

応答時間（平均）上位モデル