雑学モデルランキング

AI BENCHY カテゴリ

雑学でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 合計コスト ↓.

表示モデル数

平均雑学スコア

3.1

最良モデル

Grok 4.20 Multi Agent Beta 0.0

失敗理由

失敗理由不正解で133 失敗理由 API エラーで13 失敗理由回答なしで8

169/169

順位	モデル	企業	雑学スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#4	GPT-5.5 low	OpenAI	3.0	9.3	$0.907	0/1	10.1s
合計テスト数 1 誤答テスト数 1 合計コスト $0.907 応答時間（平均） 10.1s
#35	Kimi K2.6 medium	Moonshot AI	3.0	7.8	$0.889	0/1	130.3s
合計テスト数 1 誤答テスト数 1 合計コスト $0.889 応答時間（平均） 130.3s
#69	Grok 4.20 Beta medium	X AI	0.0	6.8	$0.750	0/0	0ms
合計テスト数 0 誤答テスト数 0 合計コスト $0.750 応答時間（平均） 0ms
#10	GPT-5.3-Codex medium	OpenAI	2.8	8.9	$0.740	0/1	14.4s
合計テスト数 1 誤答テスト数 1 合計コスト $0.740 応答時間（平均） 14.4s
#73	Mimo V2 Omni medium	Xiaomi	3.0	6.8	$0.683	0/1	234.2s
合計テスト数 1 誤答テスト数 1 合計コスト $0.683 応答時間（平均） 234.2s
#13	Claude Opus 4.7 medium	Anthropic	3.0	8.7	$0.679	0/1	2.25s
合計テスト数 1 誤答テスト数 1 合計コスト $0.679 応答時間（平均） 2.25s
#2	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.667	1/1	5.50s
合計テスト数 1 誤答テスト数 0 合計コスト $0.667 応答時間（平均） 5.50s
#37	Grok 4.3 medium	X AI	3.0	7.7	$0.614	0/1	44.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.614 応答時間（平均） 44.5s
#53	Grok 4.20 medium	X AI	3.0	7.3	$0.609	0/1	63.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.609 応答時間（平均） 63.5s
#36	Qwen3.5-122B-A10B medium	Qwen	3.0	7.7	$0.588	0/1	52.9s
合計テスト数 1 誤答テスト数 1 合計コスト $0.588 応答時間（平均） 52.9s
#65	Kimi K2.7 Code medium	Moonshot AI	3.0	7.0	$0.583	0/1	341.8s
合計テスト数 1 誤答テスト数 1 合計コスト $0.583 応答時間（平均） 341.8s
#8	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.582	1/1	2.75s
合計テスト数 1 誤答テスト数 0 合計コスト $0.582 応答時間（平均） 2.75s
#22	GPT-5.2 medium	OpenAI	3.0	8.4	$0.548	0/1	28.2s
合計テスト数 1 誤答テスト数 1 合計コスト $0.548 応答時間（平均） 28.2s
#160	Grok Build 0.1 none	X AI	3.0	4.2	$0.547	0/1	36.1s
合計テスト数 1 誤答テスト数 1 合計コスト $0.547 応答時間（平均） 36.1s
#57	Claude Opus 4.8 none	Anthropic	3.0	7.2	$0.539	0/1	3.41s
合計テスト数 1 誤答テスト数 1 合計コスト $0.539 応答時間（平均） 3.41s

雑学ランキング

モデルを絞り込む

雑学スコア上位モデル

雑学スコア vs 合計コスト

応答時間（平均）上位モデル

雑学 ランキング

モデルを絞り込む

雑学 スコア 上位モデル

雑学 スコア vs 合計コスト

応答時間（平均） 上位モデル

雑学ランキング

雑学スコア上位モデル

雑学スコア vs 合計コスト

応答時間（平均）上位モデル