複合 x 無効なツール呼び出しランキング

複合で無効なツール呼び出しが起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 正解テスト ↓.

表示モデル数

総失敗数

最も影響を受けたモデル

Gemini 3.5 Flash 1

失敗理由

無効なツール呼び出し91 不正解68 回答なし29 API エラー26 タイムアウト5 余分な書式1 指示に従っていない1

カテゴリ

複合91 ツール呼び出し9

77/77

順位	モデル	企業	無効なツール呼び出し件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#2	Gemini 3.5 Flash high	Google	1	8.2	$1.976	1/2	84.1s
合計テスト数 2 誤答テスト数 1 合計コスト $1.976 応答時間（平均） 84.1s
#8	Qwen3.7 Max medium	Qwen	1	8.7	$1.116	1/2	287.8s
合計テスト数 2 誤答テスト数 1 合計コスト $1.116 応答時間（平均） 287.8s
#11	Gemini 3.5 Flash low	Google	1	8.2	$0.433	1/2	30.0s
合計テスト数 2 誤答テスト数 1 合計コスト $0.433 応答時間（平均） 30.0s
#16	Muse Spark 1.1 medium	Meta	1	8.3	$1.357	1/2	42.6s
合計テスト数 2 誤答テスト数 1 合計コスト $1.357 応答時間（平均） 42.6s
#17	Claude Fable 5 medium	Anthropic	1	6.5	$3.478	1/2	27.5s
合計テスト数 2 誤答テスト数 1 合計コスト $3.478 応答時間（平均） 27.5s
#23	Claude Sonnet 5 medium	Anthropic	1	7.3	$0.922	1/2	51.9s
合計テスト数 2 誤答テスト数 1 合計コスト $0.922 応答時間（平均） 51.9s
#24	Muse Spark 1.1 low	Meta	1	6.6	$0.647	1/2	29.4s
合計テスト数 2 誤答テスト数 1 合計コスト $0.647 応答時間（平均） 29.4s
#28	Inkling high	Thinkingmachines	1	7.3	$1.006	1/2	63.8s
合計テスト数 2 誤答テスト数 1 合計コスト $1.006 応答時間（平均） 63.8s
#29	Step 3.7 Flash medium	Stepfun	1	7.3	$0.515	1/2	80.9s
合計テスト数 2 誤答テスト数 1 合計コスト $0.515 応答時間（平均） 80.9s
#34	GPT-5.6 Terra high	OpenAI	1	8.7	$1.055	1/2	13.7s
合計テスト数 2 誤答テスト数 1 合計コスト $1.055 応答時間（平均） 13.7s
#36	Qwen3.7 Plus medium	Qwen	1	8.2	$0.267	1/2	190.3s
合計テスト数 2 誤答テスト数 1 合計コスト $0.267 応答時間（平均） 190.3s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.4	$0.042	1/2	104.1s
合計テスト数 2 誤答テスト数 1 合計コスト $0.042 応答時間（平均） 104.1s
#51	Nemotron 3 Ultra medium	NVIDIA	1	6.3	$0.774	1/2	218.2s
合計テスト数 2 誤答テスト数 1 合計コスト $0.774 応答時間（平均） 218.2s
#55	GPT-5.6 Terra low	OpenAI	1	8.7	$0.519	1/2	9.68s
合計テスト数 2 誤答テスト数 1 合計コスト $0.519 応答時間（平均） 9.68s
#56	GPT-5.4 Mini medium	OpenAI	1	6.9	$0.756	1/2	59.6s
合計テスト数 2 誤答テスト数 1 合計コスト $0.756 応答時間（平均） 59.6s

1 2 3 4 5 6

→

モデルを絞り込む

無効なツール呼び出し件数上位モデル

無効なツール呼び出し件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

複合: 無効なツール呼び出し

モデルを絞り込む

無効なツール呼び出し 件数 上位モデル

無効なツール呼び出し 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

無効なツール呼び出し件数上位モデル

無効なツール呼び出し件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル