無効なツール呼び出し失敗ランキング

どのAIモデルで無効なツール呼び出しが起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

総失敗数

100

最も影響を受けたモデル

Ling-2.6-flash 3

カテゴリ

複合カテゴリで91 ツール呼び出しカテゴリで9

83/83

順位	モデル	企業	無効なツール呼び出し件数	スコア	合計コスト	正解テスト	応答時間（平均）
#201	Granite 4.1 8B none	IBM Granite	2	4.0	$0.007	2/22	1.45s
合計テスト数 22 誤答テスト数 20 合計コスト $0.007 応答時間（平均） 1.45s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
合計テスト数 22 誤答テスト数 2 合計コスト $1.976 応答時間（平均） 15.1s
#8	Qwen3.7 Max medium	Qwen	1	9.2	$1.116	18/22	40.6s
合計テスト数 22 誤答テスト数 4 合計コスト $1.116 応答時間（平均） 40.6s
#11	Gemini 3.5 Flash low	Google	1	8.9	$0.433	19/22	5.55s
合計テスト数 22 誤答テスト数 3 合計コスト $0.433 応答時間（平均） 5.55s
#16	Muse Spark 1.1 medium	Meta	1	8.6	$1.357	15/22	25.0s
合計テスト数 22 誤答テスト数 7 合計コスト $1.357 応答時間（平均） 25.0s
#17	Claude Fable 5 medium	Anthropic	1	8.6	$3.478	17/22	17.2s
合計テスト数 22 誤答テスト数 5 合計コスト $3.478 応答時間（平均） 17.2s
#23	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
合計テスト数 22 誤答テスト数 6 合計コスト $0.922 応答時間（平均） 12.5s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	13/22	11.5s
合計テスト数 22 誤答テスト数 9 合計コスト $0.647 応答時間（平均） 11.5s
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
合計テスト数 22 誤答テスト数 8 合計コスト $0.515 応答時間（平均） 26.4s
#32	Inkling medium	Thinkingmachines	1	8.0	$0.391	15/22	16.2s
合計テスト数 22 誤答テスト数 7 合計コスト $0.391 応答時間（平均） 16.2s
#34	GPT-5.6 Terra high	OpenAI	1	8.0	$1.055	14/22	11.3s
合計テスト数 22 誤答テスト数 8 合計コスト $1.055 応答時間（平均） 11.3s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
合計テスト数 22 誤答テスト数 7 合計コスト $0.267 応答時間（平均） 51.5s
#45	DeepSeek V4 Flash high	DeepSeek	1	7.7	$0.042	13/22	49.7s
合計テスト数 22 誤答テスト数 9 合計コスト $0.042 応答時間（平均） 49.7s
#51	Nemotron 3 Ultra medium	NVIDIA	1	7.5	$0.774	13/22	32.2s
合計テスト数 22 誤答テスト数 9 合計コスト $0.774 応答時間（平均） 32.2s
#55	GPT-5.6 Terra low	OpenAI	1	7.5	$0.519	13/22	5.31s
合計テスト数 22 誤答テスト数 9 合計コスト $0.519 応答時間（平均） 5.31s

←

1 2 3 4 5 6

→

無効なツール呼び出しの失敗

モデルを絞り込む

無効なツール呼び出し件数上位モデル

無効なツール呼び出し件数対スコア

応答時間（平均）上位モデル

無効なツール呼び出し の失敗

モデルを絞り込む

無効なツール呼び出し 件数 上位モデル

無効なツール呼び出し 件数 対 スコア

応答時間（平均） 上位モデル

無効なツール呼び出しの失敗

無効なツール呼び出し件数上位モデル

無効なツール呼び出し件数対スコア

応答時間（平均）上位モデル