ツール呼び出しモデルランキング

ツール呼び出しでどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

平均ツール呼び出しスコア

8.7

最良モデル

Kimi K3 3.0

失敗理由

失敗理由 API エラーで17 失敗理由無効なツール呼び出しで9 失敗理由指示に従っていないで8 失敗理由不正解で3 失敗理由回答なしで2

210/210

順位	モデル	企業	ツール呼び出しスコア	スコア	合計コスト	正解テスト	応答時間（平均）
#124	Qwen3.6 Flash none	Qwen	10.0	6.1	$0.062	1/1	2.49s
合計テスト数 1 誤答テスト数 0 合計コスト $0.062 応答時間（平均） 2.49s
#164	Inkling none	Thinkingmachines	3.0	5.2	$0.147	0/1	2.50s
合計テスト数 1 誤答テスト数 1 合計コスト $0.147 応答時間（平均） 2.50s
#174	GPT-4o-mini none	OpenAI	10.0	5.0	$0.010	1/1	2.51s
合計テスト数 1 誤答テスト数 0 合計コスト $0.010 応答時間（平均） 2.51s
#123	Inkling low	Thinkingmachines	3.0	6.1	$0.187	0/1	2.57s
合計テスト数 1 誤答テスト数 1 合計コスト $0.187 応答時間（平均） 2.57s
#187	Qwen3 Coder Next medium	Qwen	10.0	4.7	$0.032	1/1	2.64s
合計テスト数 1 誤答テスト数 0 合計コスト $0.032 応答時間（平均） 2.64s
#139	GPT-5.4 none	OpenAI	10.0	5.8	$0.397	1/1	2.75s
合計テスト数 1 誤答テスト数 0 合計コスト $0.397 応答時間（平均） 2.75s
#193	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/1	2.79s
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 2.79s
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	1/1	2.79s
合計テスト数 1 誤答テスト数 0 合計コスト $0.300 応答時間（平均） 2.79s
#86	Step 3.7 Flash high	Stepfun	10.0	6.9	$1.207	1/1	2.79s
合計テスト数 1 誤答テスト数 0 合計コスト $1.207 応答時間（平均） 2.79s
#159	GPT-5.6 Luna none	OpenAI	10.0	5.4	$0.142	1/1	2.80s
合計テスト数 1 誤答テスト数 0 合計コスト $0.142 応答時間（平均） 2.80s
#195	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/1	2.83s
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 2.83s
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	1/1	2.97s
合計テスト数 1 誤答テスト数 0 合計コスト $0.046 応答時間（平均） 2.97s
#129	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	1/1	2.99s
合計テスト数 1 誤答テスト数 0 合計コスト $0.095 応答時間（平均） 2.99s
#102	Laguna XS 2.1 medium	Poolside	10.0	6.5	$0.068	1/1	3.01s
合計テスト数 1 誤答テスト数 0 合計コスト $0.068 応答時間（平均） 3.01s
#132	GPT-5.6 Terra none	OpenAI	9.6	6.0	$0.349	1/1	3.10s
合計テスト数 1 誤答テスト数 0 合計コスト $0.349 応答時間（平均） 3.10s

ツール呼び出しランキング

モデルを絞り込む

ツール呼び出しスコア上位モデル

ツール呼び出しスコア vs 合計コスト

応答時間（平均）上位モデル

ツール呼び出し ランキング

モデルを絞り込む

ツール呼び出し スコア 上位モデル

ツール呼び出し スコア vs 合計コスト

応答時間（平均） 上位モデル

ツール呼び出しランキング

ツール呼び出しスコア上位モデル

ツール呼び出しスコア vs 合計コスト

応答時間（平均）上位モデル