無効なツール呼び出し失敗ランキング

どのAIモデルで無効なツール呼び出しが起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。並び替え: 正解テスト ↑.

表示モデル数

総失敗数

100

最も影響を受けたモデル

Granite 4.1 8B 2

カテゴリ

複合カテゴリで91 ツール呼び出しカテゴリで9

83/83

順位	モデル	企業	無効なツール呼び出し件数	スコア	合計コスト	正解テスト	応答時間（平均）
#201	Granite 4.1 8B none	IBM Granite	2	4.0	$0.007	2/22	1.45s
合計テスト数 22 誤答テスト数 20 合計コスト $0.007 応答時間（平均） 1.45s
#162	Ling-2.6-1T none	Inclusionai	1	5.3	$0.016	4/22	8.58s
合計テスト数 22 誤答テスト数 18 合計コスト $0.016 応答時間（平均） 8.58s
#169	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
合計テスト数 22 誤答テスト数 18 合計コスト $0.021 応答時間（平均） 19.2s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
合計テスト数 22 誤答テスト数 18 合計コスト $0.000 応答時間（平均） 29.9s
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
合計テスト数 22 誤答テスト数 18 合計コスト $0.166 応答時間（平均） 142.6s
#192	Laguna M.1 none	Poolside	1	4.4	$0.009	4/19	2.89s
合計テスト数 19 誤答テスト数 15 合計コスト $0.009 応答時間（平均） 2.89s
#150	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
合計テスト数 22 誤答テスト数 17 合計コスト $0.044 応答時間（平均） 36.8s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
合計テスト数 22 誤答テスト数 17 合計コスト $0.008 応答時間（平均） 1.55s
#172	MiniMax M2.7 medium	Minimax	1	5.0	$0.163	5/22	41.3s
合計テスト数 22 誤答テスト数 17 合計コスト $0.163 応答時間（平均） 41.3s
#190	MiniMax M2.5 medium	Minimax	1	4.6	$0.340	5/22	68.3s
合計テスト数 22 誤答テスト数 17 合計コスト $0.340 応答時間（平均） 68.3s
#193	Elephant Alpha none	Openrouter	1	4.3	$0.000	5/21	1.22s
合計テスト数 21 誤答テスト数 16 合計コスト $0.000 応答時間（平均） 1.22s
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
合計テスト数 19 誤答テスト数 14 合計コスト $0.004 応答時間（平均） 806ms
#142	Qwen3.5-122B-A10B none	Qwen	1	5.7	$0.247	6/22	12.9s
合計テスト数 22 誤答テスト数 16 合計コスト $0.247 応答時間（平均） 12.9s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
合計テスト数 22 誤答テスト数 16 合計コスト $0.142 応答時間（平均） 1.50s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
合計テスト数 22 誤答テスト数 16 合計コスト $0.147 応答時間（平均） 3.50s

1 2 3 4 5 6

→

無効なツール呼び出しの失敗

モデルを絞り込む

無効なツール呼び出し件数上位モデル

無効なツール呼び出し件数対スコア

応答時間（平均）上位モデル

無効なツール呼び出し の失敗

モデルを絞り込む

無効なツール呼び出し 件数 上位モデル

無効なツール呼び出し 件数 対 スコア

応答時間（平均） 上位モデル

無効なツール呼び出しの失敗

無効なツール呼び出し件数上位モデル

無効なツール呼び出し件数対スコア

応答時間（平均）上位モデル