ツール呼び出し x 不正解ランキング

ツール呼び出しで不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 正解テスト ↓.

表示モデル数

総失敗数

最も影響を受けたモデル

失敗理由

API エラー17 無効なツール呼び出し9 指示に従っていない8 不正解3 回答なし2

カテゴリ

ドメイン特化412 反AIトリック293 コーディング252 パズル解決201 雑学168 複合68 指示追従61 汎用知能59 データ解析と抽出41 ツール呼び出し3

3/3

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#55	GPT-5.6 Terra low	OpenAI	1	4.7	$0.519	0/1	6.69s
合計テスト数 1 誤答テスト数 1 合計コスト $0.519 応答時間（平均） 6.69s
#176	GLM 4.7 Flash none	Z.ai	1	2.8	$0.016	0/1	7.05s
合計テスト数 1 誤答テスト数 1 合計コスト $0.016 応答時間（平均） 7.05s
#203	Grok 4.1 Fast none	X AI	1	2.8	$0.008	0/1	5.51s
合計テスト数 1 誤答テスト数 1 合計コスト $0.008 応答時間（平均） 5.51s

モデルを絞り込む