雑学 x 回答なしランキング

雑学で回答なしが起きやすいAIモデルを確認し、弱点を早く見つけられます。並び替え: 失敗数 ↑.

表示モデル数

総失敗数

最も影響を受けたモデル

Grok 4.5 1

失敗理由

不正解168 API エラー13 回答なし13

カテゴリ

複合29 コーディング18 雑学13 データ解析と抽出8 ドメイン特化8 反AIトリック4 パズル解決3 ツール呼び出し2 指示追従2

13/13

順位	モデル	企業	回答なし件数	カテゴリスコア	合計コスト	正解テスト	応答時間（平均）
#12	Grok 4.5 high	X AI	1	3.0	$1.707	0/1	60.6s
合計テスト数 1 誤答テスト数 1 合計コスト $1.707 応答時間（平均） 60.6s
#14	Claude Opus 4.8 medium	Anthropic	1	3.0	$1.931	0/1	6.14s
合計テスト数 1 誤答テスト数 1 合計コスト $1.931 応答時間（平均） 6.14s
#17	Claude Fable 5 medium	Anthropic	1	3.0	$3.478	0/1	25.6s
合計テスト数 1 誤答テスト数 1 合計コスト $3.478 応答時間（平均） 25.6s
#29	Step 3.7 Flash medium	Stepfun	1	3.0	$0.515	0/1	114.0s
合計テスト数 1 誤答テスト数 1 合計コスト $0.515 応答時間（平均） 114.0s
#33	Kimi K3 max	Moonshot AI	1	3.0	$3.112	0/1	19.7s
合計テスト数 1 誤答テスト数 1 合計コスト $3.112 応答時間（平均） 19.7s
#38	GLM 5.2 medium	Z.ai	1	3.0	$0.222	0/1	34.2s
合計テスト数 1 誤答テスト数 1 合計コスト $0.222 応答時間（平均） 34.2s
#41	Claude Opus 4.8 low	Anthropic	1	3.0	$2.077	0/1	5.48s
合計テスト数 1 誤答テスト数 1 合計コスト $2.077 応答時間（平均） 5.48s
#47	MiniMax M3 medium	Minimax	1	3.0	$0.286	0/1	100.8s
合計テスト数 1 誤答テスト数 1 合計コスト $0.286 応答時間（平均） 100.8s
#66	Claude Opus 4.8 none	Anthropic	1	3.0	$1.166	0/1	3.41s
合計テスト数 1 誤答テスト数 1 合計コスト $1.166 応答時間（平均） 3.41s
#67	Step 3.7 Flash low	Stepfun	1	3.0	$0.454	0/1	124.8s
合計テスト数 1 誤答テスト数 1 合計コスト $0.454 応答時間（平均） 124.8s
#86	Step 3.7 Flash high	Stepfun	1	3.0	$1.207	0/1	149.3s
合計テスト数 1 誤答テスト数 1 合計コスト $1.207 応答時間（平均） 149.3s
#97	LongCat 2.0 high	Meituan	1	3.0	$0.469	0/1	99.4s
合計テスト数 1 誤答テスト数 1 合計コスト $0.469 応答時間（平均） 99.4s
#112	Claude Sonnet 5 none	Anthropic	1	3.0	$0.548	0/1	4.31s
合計テスト数 1 誤答テスト数 1 合計コスト $0.548 応答時間（平均） 4.31s

モデルを絞り込む

回答なし件数上位モデル

回答なし件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル

雑学: 回答なし

モデルを絞り込む

回答なし 件数 上位モデル

回答なし 件数 対 スコア

応答時間（平均） 上位モデル

推定無駄コスト 上位モデル

回答なし件数上位モデル

回答なし件数対スコア

応答時間（平均）上位モデル

推定無駄コスト上位モデル