不正解失敗ランキング

どのAIモデルで不正解が起きやすいかを確認し、選ぶ前に信頼性のリスクを見極められます。

表示モデル数

総失敗数

1523

最も影響を受けたモデル

カテゴリ

ドメイン特化カテゴリで404 反AIトリックカテゴリで290 コーディングカテゴリで249 パズル解決カテゴリで193 雑学カテゴリで165 複合カテゴリで67 指示追従カテゴリで57 汎用知能カテゴリで55 データ解析と抽出カテゴリで40 ツール呼び出しカテゴリで3

205/205

順位	モデル	企業	不正解件数	スコア	合計コスト	正解テスト	応答時間（平均）
#185	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
合計テスト数 22 誤答テスト数 18 合計コスト $0.030 応答時間（平均） 829ms
#161	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
合計テスト数 22 誤答テスト数 17 合計コスト $0.022 応答時間（平均） 1.20s
#151	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
合計テスト数 22 誤答テスト数 16 合計コスト $0.127 応答時間（平均） 19.2s
#170	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
合計テスト数 22 誤答テスト数 17 合計コスト $0.010 応答時間（平均） 1.99s
#173	Nemotron 3 Super none	NVIDIA	15	4.9	$0.017	5/22	5.97s
合計テスト数 22 誤答テスト数 17 合計コスト $0.017 応答時間（平均） 5.97s
#176	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
合計テスト数 22 誤答テスト数 18 合計コスト $0.041 応答時間（平均） 2.57s
#135	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
合計テスト数 22 誤答テスト数 15 合計コスト $0.397 応答時間（平均） 2.07s
#155	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
合計テスト数 22 誤答テスト数 16 合計コスト $0.142 応答時間（平均） 1.50s
#156	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
合計テスト数 22 誤答テスト数 17 合計コスト $0.008 応答時間（平均） 1.55s
#162	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
合計テスト数 22 誤答テスト数 17 合計コスト $0.025 応答時間（平均） 9.12s
#164	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
合計テスト数 22 誤答テスト数 17 合計コスト $0.025 応答時間（平均） 4.62s
#165	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
合計テスト数 22 誤答テスト数 18 合計コスト $0.021 応答時間（平均） 19.2s
#112	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
合計テスト数 22 誤答テスト数 14 合計コスト $0.066 応答時間（平均） 4.40s
#121	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
合計テスト数 22 誤答テスト数 14 合計コスト $0.073 応答時間（平均） 25.3s
#132	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
合計テスト数 22 誤答テスト数 16 合計コスト $0.095 応答時間（平均） 1.53s

不正解の失敗

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

不正解 の失敗

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

不正解の失敗

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル