反AIトリック x 不正解ランキング

反AIトリックで不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 正解テスト ↑.

表示モデル数

総失敗数

293

最も影響を受けたモデル

DeepSeek V4 Pro 2

失敗理由

不正解293 指示に従っていない33 余分な書式20 API エラー14 タイムアウト4 回答なし4

カテゴリ

ドメイン特化412 反AIトリック293 コーディング252 パズル解決201 雑学168 複合68 指示追従61 汎用知能59 データ解析と抽出41 ツール呼び出し3

140/140

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#82	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
合計テスト数 4 誤答テスト数 4 合計コスト $0.096 応答時間（平均） 4.02s
#116	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
合計テスト数 4 誤答テスト数 4 合計コスト $0.066 応答時間（平均） 2.43s
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.017 応答時間（平均） 582ms
#124	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
合計テスト数 4 誤答テスト数 4 合計コスト $0.062 応答時間（平均） 1.63s
#125	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
合計テスト数 4 誤答テスト数 4 合計コスト $0.073 応答時間（平均） 1.32s
#127	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
合計テスト数 4 誤答テスト数 4 合計コスト $0.106 応答時間（平均） 1.43s
#129	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
合計テスト数 4 誤答テスト数 4 合計コスト $0.095 応答時間（平均） 2.35s
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.095 応答時間（平均） 929ms
#139	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
合計テスト数 4 誤答テスト数 4 合計コスト $0.397 応答時間（平均） 1.21s
#147	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
合計テスト数 4 誤答テスト数 4 合計コスト $0.045 応答時間（平均） 1.80s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
合計テスト数 4 誤答テスト数 4 合計コスト $0.000 応答時間（平均） 2.78s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
合計テスト数 4 誤答テスト数 4 合計コスト $0.044 応答時間（平均） 20.2s
#151	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
合計テスト数 4 誤答テスト数 4 合計コスト $0.164 応答時間（平均） 2.11s
#152	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
合計テスト数 4 誤答テスト数 4 合計コスト $0.087 応答時間（平均） 2.83s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
合計テスト数 4 誤答テスト数 4 合計コスト $0.068 応答時間（平均） 2.67s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

反AIトリック: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル