雑学 x 不正解ランキング

AI BENCHY カテゴリ別失敗

雑学で不正解が起きやすいAIモデルを確認し、弱点を早く見つけられます。

表示モデル数

総失敗数

133

最も影響を受けたモデル

Qwen3.7 Max 1

失敗理由

不正解133 API エラー13 回答なし8

カテゴリ

ドメイン特化325 反AIトリック250 コーディング201 パズル解決154 雑学133 指示追従54 複合53 汎用知能36 データ解析と抽出35 ツール呼び出し2

133/133

順位	モデル	企業	不正解件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#42	Grok Build 0.1 medium	X AI	1	3.0	$0.927	0/1	53.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.927 応答時間（平均） 53.5s
#43	Kimi K2.5 medium	Moonshot AI	1	3.0	$0.348	0/1	83.9s
合計テスト数 1 誤答テスト数 1 合計コスト $0.348 応答時間（平均） 83.9s
#44	Mercury 2 medium	Inception	1	3.0	$0.058	0/1	2.58s
合計テスト数 1 誤答テスト数 1 合計コスト $0.058 応答時間（平均） 2.58s
#45	GPT-5.3 Chat none	OpenAI	1	3.0	$0.433	0/1	4.38s
合計テスト数 1 誤答テスト数 1 合計コスト $0.433 応答時間（平均） 4.38s
#46	GPT-5.4 Nano medium	OpenAI	1	3.0	$0.107	0/1	4.81s
合計テスト数 1 誤答テスト数 1 合計コスト $0.107 応答時間（平均） 4.81s
#47	Qwen3.6 Flash medium	Qwen	1	3.0	$0.288	0/1	122.9s
合計テスト数 1 誤答テスト数 1 合計コスト $0.288 応答時間（平均） 122.9s
#48	DeepSeek V3.2 medium	DeepSeek	1	3.0	$0.044	0/1	84.0s
合計テスト数 1 誤答テスト数 1 合計コスト $0.044 応答時間（平均） 84.0s
#49	Claude Opus 4.7 none	Anthropic	1	3.0	$0.505	0/1	1.46s
合計テスト数 1 誤答テスト数 1 合計コスト $0.505 応答時間（平均） 1.46s
#50	Seed-2.0-Mini medium	Bytedance Seed	1	3.0	$0.044	0/1	56.8s
合計テスト数 1 誤答テスト数 1 合計コスト $0.044 応答時間（平均） 56.8s
#51	MiMo-V2.5-Pro medium	Xiaomi	1	3.0	$0.106	0/1	12.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.106 応答時間（平均） 12.5s
#53	Grok 4.20 medium	X AI	1	3.0	$0.609	0/1	63.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.609 応答時間（平均） 63.5s
#54	Hy3 preview medium	Tencent	1	3.0	$0.021	0/1	39.9s
合計テスト数 1 誤答テスト数 1 合計コスト $0.021 応答時間（平均） 39.9s
#55	Claude Sonnet 4.6 none	Anthropic	1	3.0	$0.316	0/1	4.67s
合計テスト数 1 誤答テスト数 1 合計コスト $0.316 応答時間（平均） 4.67s
#56	GLM 5V Turbo medium	Z.ai	1	3.0	$0.457	0/1	41.0s
合計テスト数 1 誤答テスト数 1 合計コスト $0.457 応答時間（平均） 41.0s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.0	$0.034	0/1	5.76s
合計テスト数 1 誤答テスト数 1 合計コスト $0.034 応答時間（平均） 5.76s

←

1 2 3 4 9

→

モデルを絞り込む

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

雑学: 不正解

モデルを絞り込む

不正解 件数 上位モデル

不正解 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

不正解件数上位モデル

不正解件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル