反AIトリック x API エラーランキング

反AIトリックで API エラーが起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

最も影響を受けたモデル

Hy3 preview 2

失敗理由

不正解293 指示に従っていない33 余分な書式20 API エラー14 タイムアウト4 回答なし4

カテゴリ

コーディング45 複合26 ツール呼び出し17 データ解析と抽出14 反AIトリック14 雑学13 パズル解決12 汎用知能12 ドメイン特化7 指示追従1

13/13

順位	モデル	企業	API エラー件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#135	Hy3 preview high	Tencent	2	6.4	$0.048	2/4	15.1s
合計テスト数 4 誤答テスト数 2 合計コスト $0.048 応答時間（平均） 15.1s
#32	Inkling medium	Thinkingmachines	1	8.7	$0.391	3/4	6.49s
合計テスト数 4 誤答テスト数 1 合計コスト $0.391 応答時間（平均） 6.49s
#76	DeepSeek V3.2 medium	DeepSeek	1	8.2	$0.078	3/4	24.2s
合計テスト数 4 誤答テスト数 1 合計コスト $0.078 応答時間（平均） 24.2s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.9	$0.077	2/4	2.49s
合計テスト数 4 誤答テスト数 2 合計コスト $0.077 応答時間（平均） 2.49s
#153	Hy3 preview low	Tencent	1	8.3	$0.015	3/4	9.32s
合計テスト数 4 誤答テスト数 1 合計コスト $0.015 応答時間（平均） 9.32s
#173	DeepSeek V3.2 none	DeepSeek	1	3.2	$0.054	0/4	9.35s
合計テスト数 4 誤答テスト数 4 合計コスト $0.054 応答時間（平均） 9.35s
#175	Qwen3.6 Plus Preview medium	Qwen	1	8.3	$0.000	3/4	11.7s
合計テスト数 4 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 11.7s
#186	Laguna M.1 medium	Poolside	1	6.5	$0.033	2/4	4.87s
合計テスト数 4 誤答テスト数 2 合計コスト $0.033 応答時間（平均） 4.87s
#192	Laguna M.1 none	Poolside	1	3.4	$0.009	0/4	705ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.009 応答時間（平均） 705ms
#198	Laguna Xs.2 medium	Poolside	1	6.9	$0.015	2/4	2.68s
合計テスト数 4 誤答テスト数 2 合計コスト $0.015 応答時間（平均） 2.68s
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/4	534ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.004 応答時間（平均） 534ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	6.4	$0.000	2/4	1.20s
合計テスト数 4 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 1.20s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	1/4	584ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 584ms

モデルを絞り込む

API エラー件数上位モデル

API エラー件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

反AIトリック: API エラー

モデルを絞り込む

API エラー 件数 上位モデル

API エラー 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

API エラー件数上位モデル

API エラー件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル