反AIトリック x 不正解ランキング

反AIトリックで不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

293

最も影響を受けたモデル

Seed-2.0-Lite 4

失敗理由

不正解293 指示に従っていない33 余分な書式20 API エラー14 タイムアウト4 回答なし4

カテゴリ

ドメイン特化421 反AIトリック293 コーディング259 パズル解決204 雑学172 複合69 汎用知能62 指示追従61 データ解析と抽出41 ツール呼び出し3

140/140

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#91	GPT-5.5 none	OpenAI	2	6.9	$0.544	2/4	1.31s
合計テスト数 4 誤答テスト数 2 合計コスト $0.544 応答時間（平均） 1.31s
#92	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
合計テスト数 4 誤答テスト数 2 合計コスト $0.300 応答時間（平均） 892ms
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
合計テスト数 4 誤答テスト数 3 合計コスト $0.068 応答時間（平均） 42.0s
#111	Gemini 3.1 Flash Lite low	Google	2	7.3	$0.621	2/4	1.84s
合計テスト数 4 誤答テスト数 2 合計コスト $0.621 応答時間（平均） 1.84s
#121	Gemma 4 31B none	Google	2	6.5	$0.021	2/4	1.85s
合計テスト数 4 誤答テスト数 2 合計コスト $0.021 応答時間（平均） 1.85s
#128	Gemini 3.1 Flash Lite none	Google	2	7.5	$0.046	2/4	1.07s
合計テスト数 4 誤答テスト数 2 合計コスト $0.046 応答時間（平均） 1.07s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
合計テスト数 4 誤答テスト数 2 合計コスト $0.114 応答時間（平均） 25.5s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	7.3	$0.041	2/4	3.50s
合計テスト数 4 誤答テスト数 2 合計コスト $0.041 応答時間（平均） 3.50s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 755ms
#172	Qwen3 Coder Next none	Qwen	2	3.6	$0.025	0/4	3.31s
合計テスト数 4 誤答テスト数 4 合計コスト $0.025 応答時間（平均） 3.31s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
合計テスト数 4 誤答テスト数 4 合計コスト $0.000 応答時間（平均） 22.5s
#190	Hunter Alpha medium	OpenRouter	2	7.3	$0.000	2/4	4.75s
合計テスト数 4 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 4.75s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
合計テスト数 4 誤答テスト数 3 合計コスト $0.166 応答時間（平均） 15.0s
#201	Elephant Alpha medium	Openrouter	2	6.6	$0.000	2/4	1.19s
合計テスト数 4 誤答テスト数 2 合計コスト $0.000 応答時間（平均） 1.19s
#207	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.007 応答時間（平均） 844ms

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

反AIトリック: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル