汎用知能モデルランキング

汎用知能でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 正解テスト ↑.

表示モデル数

平均汎用知能スコア

6.1

最良モデル

Grok 4.5 4.7

失敗理由

失敗理由指示に従っていないで78 失敗理由不正解で62 失敗理由 API エラーで12 失敗理由タイムアウトで4

216/216

順位	モデル	企業	汎用知能スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#181	Qwen3.6 Plus Preview medium	Qwen	3.0	4.9	$0.000	0/1	0ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 0ms
#182	GLM 4.7 Flash none	Z.ai	4.0	4.9	$0.016	0/1	1.59s
合計テスト数 1 誤答テスト数 1 合計コスト $0.016 応答時間（平均） 1.59s
#183	Nemotron 3 Super none	NVIDIA	4.6	4.9	$0.008	0/1	950ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.008 応答時間（平均） 950ms
#184	Ling-2.6-flash none	Inclusionai	4.0	4.9	$0.002	0/1	1.45s
合計テスト数 1 誤答テスト数 1 合計コスト $0.002 応答時間（平均） 1.45s
#185	Ring-2.6-1T none	Inclusionai	4.3	4.8	$0.026	0/1	15.6s
合計テスト数 1 誤答テスト数 1 合計コスト $0.026 応答時間（平均） 15.6s
#186	GPT-5.4 Nano none	OpenAI	3.8	4.8	$0.041	0/1	1.31s
合計テスト数 1 誤答テスト数 1 合計コスト $0.041 応答時間（平均） 1.31s
#187	Grok 4.20 Multi Agent Beta medium	X AI	5.8	4.8	$5.599	0/1	6.40s
合計テスト数 1 誤答テスト数 1 合計コスト $5.599 応答時間（平均） 6.40s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	5.0	4.8	$0.067	0/1	12.0s
合計テスト数 1 誤答テスト数 1 合計コスト $0.067 応答時間（平均） 12.0s
#189	Trinity Large Preview none	Arcee AI	4.5	4.8	$0.008	0/1	873ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.008 応答時間（平均） 873ms
#190	Hunter Alpha medium	OpenRouter	7.0	4.7	$0.000	0/1	6.44s
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 6.44s
#191	Grok 4.1 Fast medium	X AI	4.2	4.7	$0.069	0/1	16.2s
合計テスト数 1 誤答テスト数 1 合計コスト $0.069 応答時間（平均） 16.2s
#192	Laguna M.1 medium	Poolside	3.0	4.7	$0.033	0/1	0ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.033 応答時間（平均） 0ms
#193	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	0/1	1.39s
合計テスト数 1 誤答テスト数 1 合計コスト $0.032 応答時間（平均） 1.39s
#194	Cobuddy medium	Baidu	4.2	4.7	$0.000	0/1	23.2s
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 23.2s
#195	Mercury 2 none	Inception	4.8	4.6	$0.030	0/1	628ms
合計テスト数 1 誤答テスト数 1 合計コスト $0.030 応答時間（平均） 628ms

汎用知能ランキング

モデルを絞り込む

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル

汎用知能 ランキング

モデルを絞り込む

汎用知能 スコア 上位モデル

汎用知能 スコア vs 合計コスト

応答時間（平均） 上位モデル

汎用知能ランキング

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル