反AIトリック x 不正解ランキング

反AIトリックで不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 応答時間（平均） ↑.

表示モデル数

総失敗数

293

最も影響を受けたモデル

Mistral Small 4 4

失敗理由

不正解293 指示に従っていない33 余分な書式20 API エラー14 タイムアウト4 回答なし4

カテゴリ

ドメイン特化412 反AIトリック293 コーディング252 パズル解決201 雑学168 複合68 指示追従61 汎用知能59 データ解析と抽出41 ツール呼び出し3

140/140

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#165	Mistral Small 4 none	Mistral	4	3.4	$0.022	0/4	395ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.022 応答時間（平均） 395ms
#210	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
合計テスト数 3 誤答テスト数 3 合計コスト $0.001 応答時間（平均） 471ms
#189	Mercury 2 none	Inception	4	3.0	$0.030	0/4	483ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.030 応答時間（平均） 483ms
#197	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.057 応答時間（平均） 501ms
#205	Laguna Xs.2 none	Poolside	2	3.0	$0.004	0/4	534ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.004 応答時間（平均） 534ms
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.017 応答時間（平均） 582ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	4.8	$0.000	1/4	584ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 584ms
#191	Grok 4.20 Beta none	X AI	4	4.0	$0.087	0/4	597ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.087 応答時間（平均） 597ms
#192	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.009 応答時間（平均） 705ms
#160	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 755ms
#103	Qwen3.5-27B none	Qwen	3	4.8	$0.090	1/4	788ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.090 応答時間（平均） 788ms
#201	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.007 応答時間（平均） 844ms
#88	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
合計テスト数 4 誤答テスト数 2 合計コスト $0.300 応答時間（平均） 892ms
#159	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.142 応答時間（平均） 901ms
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
合計テスト数 4 誤答テスト数 4 合計コスト $0.095 応答時間（平均） 929ms

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

反AIトリック: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル