反AIトリック x 不正解ランキング

反AIトリックで不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

293

最も影響を受けたモデル

Seed-2.0-Lite 4

失敗理由

不正解293 指示に従っていない33 余分な書式20 API エラー14 タイムアウト4 回答なし4

カテゴリ

ドメイン特化412 反AIトリック293 コーディング252 パズル解決201 雑学168 複合68 指示追従61 汎用知能59 データ解析と抽出41 ツール呼び出し3

140/140

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#116	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
合計テスト数 4 誤答テスト数 4 合計コスト $0.066 応答時間（平均） 2.43s
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.017 応答時間（平均） 582ms
#124	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
合計テスト数 4 誤答テスト数 4 合計コスト $0.062 応答時間（平均） 1.63s
#125	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
合計テスト数 4 誤答テスト数 4 合計コスト $0.073 応答時間（平均） 1.32s
#127	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
合計テスト数 4 誤答テスト数 4 合計コスト $0.106 応答時間（平均） 1.43s
#129	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
合計テスト数 4 誤答テスト数 4 合計コスト $0.095 応答時間（平均） 2.35s
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.095 応答時間（平均） 929ms
#139	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
合計テスト数 4 誤答テスト数 4 合計コスト $0.397 応答時間（平均） 1.21s
#147	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
合計テスト数 4 誤答テスト数 4 合計コスト $0.045 応答時間（平均） 1.80s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
合計テスト数 4 誤答テスト数 4 合計コスト $0.044 応答時間（平均） 20.2s
#151	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
合計テスト数 4 誤答テスト数 4 合計コスト $0.164 応答時間（平均） 2.11s
#152	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
合計テスト数 4 誤答テスト数 4 合計コスト $0.087 応答時間（平均） 2.83s
#155	Kimi K2.5 none	Moonshot AI	4	3.6	$0.127	0/4	6.24s
合計テスト数 4 誤答テスト数 4 合計コスト $0.127 応答時間（平均） 6.24s
#161	Qwen3.6 35B A3B none	Qwen	4	3.6	$0.061	0/4	2.10s
合計テスト数 4 誤答テスト数 4 合計コスト $0.061 応答時間（平均） 2.10s
#162	Ling-2.6-1T none	Inclusionai	4	3.4	$0.016	0/4	6.55s
合計テスト数 4 誤答テスト数 4 合計コスト $0.016 応答時間（平均） 6.55s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

反AIトリック: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル