反AIトリック x 不正解ランキング

反AIトリックで不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

293

最も影響を受けたモデル

Seed-2.0-Lite 4

失敗理由

不正解293 指示に従っていない33 余分な書式20 API エラー14 タイムアウト4 回答なし4

カテゴリ

ドメイン特化412 反AIトリック293 コーディング252 パズル解決201 雑学168 複合68 指示追従61 汎用知能59 データ解析と抽出41 ツール呼び出し3

140/140

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#132	GPT-5.6 Terra none	OpenAI	3	4.8	$0.349	1/4	942ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.349 応答時間（平均） 942ms
#138	Kimi K2.6 none	Moonshot AI	3	4.6	$0.184	1/4	1.39s
合計テスト数 4 誤答テスト数 3 合計コスト $0.184 応答時間（平均） 1.39s
#141	GLM 5 none	Z.ai	3	4.8	$0.041	1/4	2.37s
合計テスト数 4 誤答テスト数 3 合計コスト $0.041 応答時間（平均） 2.37s
#142	Qwen3.5-122B-A10B none	Qwen	3	4.8	$0.247	1/4	1.59s
合計テスト数 4 誤答テスト数 3 合計コスト $0.247 応答時間（平均） 1.59s
#145	GLM 5V Turbo none	Z.ai	3	4.8	$0.052	1/4	3.13s
合計テスト数 4 誤答テスト数 3 合計コスト $0.052 応答時間（平均） 3.13s
#146	Owl Alpha medium	Openrouter	3	4.8	$0.000	1/4	3.97s
合計テスト数 4 誤答テスト数 3 合計コスト $0.000 応答時間（平均） 3.97s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
合計テスト数 4 誤答テスト数 4 合計コスト $0.000 応答時間（平均） 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
合計テスト数 4 誤答テスト数 4 合計コスト $0.068 応答時間（平均） 2.67s
#157	Mimo V2 Omni none	Xiaomi	3	3.6	$0.021	0/4	1.63s
合計テスト数 4 誤答テスト数 4 合計コスト $0.021 応答時間（平均） 1.63s
#159	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
合計テスト数 4 誤答テスト数 3 合計コスト $0.142 応答時間（平均） 901ms
#164	Inkling none	Thinkingmachines	3	4.8	$0.147	1/4	1.43s
合計テスト数 4 誤答テスト数 3 合計コスト $0.147 応答時間（平均） 1.43s
#167	Mistral Small 4 medium	Mistral	3	5.6	$0.096	1/4	2.67s
合計テスト数 4 誤答テスト数 3 合計コスト $0.096 応答時間（平均） 2.67s
#174	GPT-4o-mini none	OpenAI	3	4.8	$0.010	1/4	1.34s
合計テスト数 4 誤答テスト数 3 合計コスト $0.010 応答時間（平均） 1.34s
#176	GLM 4.7 Flash none	Z.ai	3	5.2	$0.016	1/4	5.51s
合計テスト数 4 誤答テスト数 3 合計コスト $0.016 応答時間（平均） 5.51s
#177	Nemotron 3 Super none	NVIDIA	3	4.8	$0.008	1/4	4.46s
合計テスト数 4 誤答テスト数 3 合計コスト $0.008 応答時間（平均） 4.46s

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

反AIトリック: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル