雑学 x 不正解ランキング

AI BENCHY カテゴリ別失敗

雑学で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

133

最も影響を受けたモデル

Qwen3.7 Max 1

失敗理由

不正解133 API エラー13 回答なし8

カテゴリ

ドメイン特化325 反AIトリック250 コーディング201 パズル解決154 雑学133 指示追従54 複合53 汎用知能36 データ解析と抽出35 ツール呼び出し2

133/133

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 2.50s
#111	Kimi K2.6 none	Moonshot AI	1	3.0	$0.079	0/1	1.36s
合計テスト数 1 誤答テスト数 1 合計コスト $0.079 応答時間（平均） 1.36s
#112	GPT-5.4 none	OpenAI	1	3.0	$0.122	0/1	990ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.122 応答時間（平均） 990ms
#114	Mimo V2 Omni none	Xiaomi	1	3.0	$0.021	0/1	1.30s
合計テスト数 1 誤答テスト数 1 合計コスト $0.021 応答時間（平均） 1.30s
#115	Grok 4.1 Fast medium	X AI	1	3.0	$0.069	0/1	25.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.069 応答時間（平均） 25.5s
#116	GLM 5.1 none	Z.ai	1	3.0	$0.058	0/1	2.34s
合計テスト数 1 誤答テスト数 1 合計コスト $0.058 応答時間（平均） 2.34s
#117	DeepSeek V4 Flash none	DeepSeek	1	3.0	$0.007	0/1	3.07s
合計テスト数 1 誤答テスト数 1 合計コスト $0.007 応答時間（平均） 3.07s
#118	Kimi K2.5 none	Moonshot AI	1	3.0	$0.027	0/1	3.90s
合計テスト数 1 誤答テスト数 1 合計コスト $0.027 応答時間（平均） 3.90s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.0	$0.017	0/1	1.89s
合計テスト数 1 誤答テスト数 1 合計コスト $0.017 応答時間（平均） 1.89s
#120	Qwen3.6 27B none	Qwen	1	3.0	$0.028	0/1	4.03s
合計テスト数 1 誤答テスト数 1 合計コスト $0.028 応答時間（平均） 4.03s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.004 応答時間（平均） 778ms
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.0	$0.032	0/1	33.3s
合計テスト数 1 誤答テスト数 1 合計コスト $0.032 応答時間（平均） 33.3s
#123	GLM 5 Turbo none	Z.ai	1	3.0	$0.047	0/1	2.37s
合計テスト数 1 誤答テスト数 1 合計コスト $0.047 応答時間（平均） 2.37s
#124	GPT-5.4 Mini none	OpenAI	1	3.0	$0.038	0/1	1.33s
合計テスト数 1 誤答テスト数 1 合計コスト $0.038 応答時間（平均） 1.33s
#125	Qwen3.5-122B-A10B none	Qwen	1	3.0	$0.020	0/1	295ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.020 応答時間（平均） 295ms

←

1 6 7 8 9

→

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

雑学: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル