無効なツール呼び出し失敗ランキング

どのAIモデルで無効なツール呼び出しが起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

総失敗数

100

最も影響を受けたモデル

Ling-2.6-flash 3

カテゴリ

複合カテゴリで91 ツール呼び出しカテゴリで9

83/83

順位	モデル	企業	無効なツール呼び出し件数	スコア	合計コスト	正解テスト	応答時間（平均）
#174	Ling-2.6-flash none	Inclusionai	3	4.9	$0.002	6/22	10.7s
合計テスト数 22 誤答テスト数 16 合計コスト $0.002 応答時間（平均） 10.7s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
合計テスト数 22 誤答テスト数 10 合計コスト $1.694 応答時間（平均） 31.5s
#28	Inkling high	Thinkingmachines	2	8.0	$1.006	15/22	64.2s
合計テスト数 22 誤答テスト数 7 合計コスト $1.006 応答時間（平均） 64.2s
#87	Gemini 3.5 Flash minimal	Google	2	6.8	$0.300	14/22	2.65s
合計テスト数 22 誤答テスト数 8 合計コスト $0.300 応答時間（平均） 2.65s
#91	GLM 5V Turbo medium	Z.ai	2	6.7	$0.457	11/21	23.1s
合計テスト数 21 誤答テスト数 10 合計コスト $0.457 応答時間（平均） 23.1s
#96	Qwen3.6 27B medium	Qwen	2	6.5	$0.779	10/22	106.3s
合計テスト数 22 誤答テスト数 12 合計コスト $0.779 応答時間（平均） 106.3s
#119	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
合計テスト数 22 誤答テスト数 12 合計コスト $0.187 応答時間（平均） 5.15s
#120	Qwen3.6 Flash none	Qwen	2	6.1	$0.062	7/22	3.74s
合計テスト数 22 誤答テスト数 15 合計コスト $0.062 応答時間（平均） 3.74s
#146	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
合計テスト数 22 誤答テスト数 17 合計コスト $0.044 応答時間（平均） 36.8s
#148	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
合計テスト数 22 誤答テスト数 15 合計コスト $0.087 応答時間（平均） 10.7s
#165	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
合計テスト数 22 誤答テスト数 18 合計コスト $0.021 応答時間（平均） 19.2s
#167	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
合計テスト数 22 誤答テスト数 18 合計コスト $0.000 応答時間（平均） 29.9s
#169	DeepSeek V3.2 none	DeepSeek	2	5.0	$0.054	6/22	18.3s
合計テスト数 22 誤答テスト数 16 合計コスト $0.054 応答時間（平均） 18.3s
#172	GLM 4.7 Flash none	Z.ai	2	4.9	$0.016	6/22	9.15s
合計テスト数 22 誤答テスト数 16 合計コスト $0.016 応答時間（平均） 9.15s
#190	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
合計テスト数 22 誤答テスト数 18 合計コスト $0.166 応答時間（平均） 142.6s

1 2 3 4 5 6

→

無効なツール呼び出しの失敗

モデルを絞り込む

無効なツール呼び出し件数上位モデル

無効なツール呼び出し件数対スコア

応答時間（平均）上位モデル

無効なツール呼び出し の失敗

モデルを絞り込む

無効なツール呼び出し 件数 上位モデル

無効なツール呼び出し 件数 対 スコア

応答時間（平均） 上位モデル

無効なツール呼び出しの失敗

無効なツール呼び出し件数上位モデル

無効なツール呼び出し件数対スコア

応答時間（平均）上位モデル