反AIトリック x 不正解ランキング

反AIトリックで不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 応答時間（平均） ↓.

表示モデル数

総失敗数

293

最も影響を受けたモデル

Seed-2.0-Mini 1

失敗理由

不正解293 指示に従っていない33 余分な書式20 API エラー14 タイムアウト4 回答なし4

カテゴリ

ドメイン特化412 反AIトリック293 コーディング252 パズル解決201 雑学168 複合68 指示追従61 汎用知能59 データ解析と抽出41 ツール呼び出し3

140/140

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#80	Seed-2.0-Mini medium	Bytedance Seed	1	6.6	$0.101	2/4	74.7s
合計テスト数 4 誤答テスト数 2 合計コスト $0.101 応答時間（平均） 74.7s
#77	Kimi K2.5 medium	Moonshot AI	1	7.3	$0.600	2/4	51.4s
合計テスト数 4 誤答テスト数 2 合計コスト $0.600 応答時間（平均） 51.4s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	8.2	$0.437	3/4	45.8s
合計テスト数 4 誤答テスト数 1 合計コスト $0.437 応答時間（平均） 45.8s
#102	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
合計テスト数 4 誤答テスト数 3 合計コスト $0.068 応答時間（平均） 42.0s
#172	MiniMax M2.7 medium	Minimax	1	7.9	$0.163	2/4	40.3s
合計テスト数 4 誤答テスト数 2 合計コスト $0.163 応答時間（平均） 40.3s
#143	Gemini 3.1 Flash Lite high	Google	1	8.7	$2.044	3/4	37.2s
合計テスト数 4 誤答テスト数 1 合計コスト $2.044 応答時間（平均） 37.2s
#204	Qwen3.5-9B medium	Qwen	1	5.1	$0.036	1/4	34.4s
合計テスト数 4 誤答テスト数 3 合計コスト $0.036 応答時間（平均） 34.4s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
合計テスト数 4 誤答テスト数 2 合計コスト $0.010 応答時間（平均） 32.8s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.042	3/4	28.5s
合計テスト数 4 誤答テスト数 1 合計コスト $0.042 応答時間（平均） 28.5s
#46	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
合計テスト数 4 誤答テスト数 3 合計コスト $0.200 応答時間（平均） 25.7s
#128	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
合計テスト数 4 誤答テスト数 2 合計コスト $0.114 応答時間（平均） 25.5s
#171	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
合計テスト数 4 誤答テスト数 4 合計コスト $0.000 応答時間（平均） 22.5s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
合計テスト数 4 誤答テスト数 4 合計コスト $0.044 応答時間（平均） 20.2s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
合計テスト数 4 誤答テスト数 1 合計コスト $0.234 応答時間（平均） 18.0s
#194	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
合計テスト数 4 誤答テスト数 3 合計コスト $0.166 応答時間（平均） 15.0s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

反AIトリック: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル