汎用知能 x 不正解ランキング

汎用知能で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

最も影響を受けたモデル

Grok 4.5 1

失敗理由

指示に従っていない78 不正解59 API エラー12 タイムアウト4

カテゴリ

ドメイン特化412 反AIトリック293 コーディング252 パズル解決201 雑学168 複合68 指示追従61 汎用知能59 データ解析と抽出41 ツール呼び出し3

59/59

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#82	DeepSeek V4 Pro none	DeepSeek	1	5.0	$0.096	0/1	2.05s
合計テスト数 1 誤答テスト数 1 合計コスト $0.096 応答時間（平均） 2.05s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
合計テスト数 1 誤答テスト数 1 合計コスト $0.524 応答時間（平均） 1.52s
#85	Qwen3.6 Flash medium	Qwen	1	4.8	$0.738	0/1	9.88s
合計テスト数 1 誤答テスト数 1 合計コスト $0.738 応答時間（平均） 9.88s
#86	Step 3.7 Flash high	Stepfun	1	5.5	$1.207	0/1	4.17s
合計テスト数 1 誤答テスト数 1 合計コスト $1.207 応答時間（平均） 4.17s
#91	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.391 応答時間（平均） 22.5s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.8	$0.476	0/1	5.16s
合計テスト数 1 誤答テスト数 1 合計コスト $0.476 応答時間（平均） 5.16s
#96	GLM 5.2 none	Z.ai	1	6.1	$0.151	0/1	4.42s
合計テスト数 1 誤答テスト数 1 合計コスト $0.151 応答時間（平均） 4.42s
#97	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
合計テスト数 1 誤答テスト数 1 合計コスト $0.469 応答時間（平均） 17.0s
#98	Qwen3.6 Max Preview none	Qwen	1	4.3	$0.231	0/1	1.62s
合計テスト数 1 誤答テスト数 1 合計コスト $0.231 応答時間（平均） 1.62s
#102	Laguna XS 2.1 medium	Poolside	1	5.0	$0.068	0/1	4.15s
合計テスト数 1 誤答テスト数 1 合計コスト $0.068 応答時間（平均） 4.15s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
合計テスト数 1 誤答テスト数 1 合計コスト $0.621 応答時間（平均） 1.37s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	4.4	$0.073	0/1	2.26s
合計テスト数 1 誤答テスト数 1 合計コスト $0.073 応答時間（平均） 2.26s
#111	LongCat 2.0 none	Meituan	1	5.0	$0.044	0/1	2.76s
合計テスト数 1 誤答テスト数 1 合計コスト $0.044 応答時間（平均） 2.76s
#117	GPT-5.6 Luna low	OpenAI	1	5.0	$0.249	0/1	2.25s
合計テスト数 1 誤答テスト数 1 合計コスト $0.249 応答時間（平均） 2.25s
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.017 応答時間（平均） 615ms

←

1 2 3 4

→

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

汎用知能: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル