雑学モデルランキング

AI BENCHY カテゴリ

雑学でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

平均雑学スコア

3.1

最良モデル

Grok 4.20 Beta 0.0

失敗理由

失敗理由不正解で133 失敗理由 API エラーで13 失敗理由回答なしで8

169/169

順位	モデル	企業	雑学スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#42	Grok Build 0.1 medium	X AI	3.0	7.6	$0.927	0/1	53.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.927 応答時間（平均） 53.5s
#23	DeepSeek V4 Flash high	DeepSeek	3.0	8.3	$0.027	0/1	54.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.027 応答時間（平均） 54.5s
#87	Nemotron 3 Super medium	NVIDIA	3.0	6.3	$0.021	0/1	55.3s
合計テスト数 1 誤答テスト数 1 合計コスト $0.021 応答時間（平均） 55.3s
#50	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.4	$0.044	0/1	56.8s
合計テスト数 1 誤答テスト数 1 合計コスト $0.044 応答時間（平均） 56.8s
#11	Qwen3.6 Max Preview medium	Qwen	3.0	8.9	$0.960	0/1	60.6s
合計テスト数 1 誤答テスト数 1 合計コスト $0.960 応答時間（平均） 60.6s
#38	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$2.053	0/1	63.2s
合計テスト数 1 誤答テスト数 1 合計コスト $2.053 応答時間（平均） 63.2s
#53	Grok 4.20 medium	X AI	3.0	7.3	$0.609	0/1	63.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.609 応答時間（平均） 63.5s
#15	GLM 5 medium	Z.ai	3.0	8.6	$0.228	0/1	67.4s
合計テスト数 1 誤答テスト数 1 合計コスト $0.228 応答時間（平均） 67.4s
#146	MiniMax M2.5 medium	Minimax	3.0	4.7	$0.303	0/1	80.8s
合計テスト数 1 誤答テスト数 1 合計コスト $0.303 応答時間（平均） 80.8s
#81	Qwen3.6 27B medium	Qwen	3.0	6.6	$0.440	0/1	81.0s
合計テスト数 1 誤答テスト数 1 合計コスト $0.440 応答時間（平均） 81.0s
#77	Mimo V2 PRO medium	Xiaomi	3.0	6.7	$0.333	0/1	82.7s
合計テスト数 1 誤答テスト数 1 合計コスト $0.333 応答時間（平均） 82.7s
#43	Kimi K2.5 medium	Moonshot AI	3.0	7.5	$0.348	0/1	83.9s
合計テスト数 1 誤答テスト数 1 合計コスト $0.348 応答時間（平均） 83.9s
#48	DeepSeek V3.2 medium	DeepSeek	3.0	7.5	$0.044	0/1	84.0s
合計テスト数 1 誤答テスト数 1 合計コスト $0.044 応答時間（平均） 84.0s
#29	Qwen3.5-27B medium	Qwen	3.0	7.9	$0.536	0/1	85.1s
合計テスト数 1 誤答テスト数 1 合計コスト $0.536 応答時間（平均） 85.1s
#88	Gemma 4 31B medium	Google	3.0	6.3	$0.033	0/1	90.1s
合計テスト数 1 誤答テスト数 1 合計コスト $0.033 応答時間（平均） 90.1s

←

1 9 10 11 12

→

雑学ランキング

モデルを絞り込む

雑学スコア上位モデル

雑学スコア vs 合計コスト

応答時間（平均）上位モデル

雑学 ランキング

モデルを絞り込む

雑学 スコア 上位モデル

雑学 スコア vs 合計コスト

応答時間（平均） 上位モデル

雑学ランキング

雑学スコア上位モデル

雑学スコア vs 合計コスト

応答時間（平均）上位モデル