汎用知能モデルランキング

汎用知能でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。

表示モデル数

平均汎用知能スコア

6.1

最良モデル

Gemini 3.6 Flash 10.0

失敗理由

失敗理由指示に従っていないで78 失敗理由不正解で62 失敗理由 API エラーで12 失敗理由タイムアウトで4

216/216

順位	モデル	企業	汎用知能スコア	スコア	合計コスト	正解テスト	応答時間（平均）
#190	Hunter Alpha medium	OpenRouter	7.0	4.7	$0.000	0/1	6.44s
合計テスト数 1 誤答テスト数 1 合計コスト $0.000 応答時間（平均） 6.44s
#39	Seed-2.0-Lite medium	Bytedance Seed	6.7	7.9	$0.234	0/1	18.2s
合計テスト数 1 誤答テスト数 1 合計コスト $0.234 応答時間（平均） 18.2s
#25	Grok 4.5 medium	X AI	6.5	8.3	$1.928	0/1	12.8s
合計テスト数 1 誤答テスト数 1 合計コスト $1.928 応答時間（平均） 12.8s
#81	Kimi K2.5 medium	Moonshot AI	6.5	7.0	$0.600	0/1	69.7s
合計テスト数 1 誤答テスト数 1 合計コスト $0.600 応答時間（平均） 69.7s
#87	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	0/1	1.52s
合計テスト数 1 誤答テスト数 1 合計コスト $0.524 応答時間（平均） 1.52s
#105	Qwen3.6 27B medium	Qwen	6.5	6.5	$0.779	0/1	39.5s
合計テスト数 1 誤答テスト数 1 合計コスト $0.779 応答時間（平均） 39.5s
#133	Qwen3.5-35B-A3B none	Qwen	6.5	6.1	$0.106	0/1	1.19s
合計テスト数 1 誤答テスト数 1 合計コスト $0.106 応答時間（平均） 1.19s
#193	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	0/1	1.39s
合計テスト数 1 誤答テスト数 1 合計コスト $0.032 応答時間（平均） 1.39s
#23	Grok 4.5 low	X AI	6.1	8.4	$0.935	0/1	4.88s
合計テスト数 1 誤答テスト数 1 合計コスト $0.935 応答時間（平均） 4.88s
#46	GLM 5 medium	Z.ai	6.1	7.7	$0.307	0/1	14.7s
合計テスト数 1 誤答テスト数 1 合計コスト $0.307 応答時間（平均） 14.7s
#49	DeepSeek V4 Flash high	DeepSeek	6.1	7.7	$0.041	0/1	25.2s
合計テスト数 1 誤答テスト数 1 合計コスト $0.041 応答時間（平均） 25.2s
#53	GLM 5 Turbo medium	Z.ai	6.1	7.6	$0.323	0/1	10.1s
合計テスト数 1 誤答テスト数 1 合計コスト $0.323 応答時間（平均） 10.1s
#62	Qwen3.5-27B medium	Qwen	6.1	7.4	$1.627	0/1	101.4s
合計テスト数 1 誤答テスト数 1 合計コスト $1.627 応答時間（平均） 101.4s
#67	Claude Sonnet 4.6 none	Anthropic	6.1	7.3	$0.661	0/1	2.56s
合計テスト数 1 誤答テスト数 1 合計コスト $0.661 応答時間（平均） 2.56s
#95	Gemini 3.5 Flash-Lite low	Google	6.1	6.7	$0.145	0/1	1.71s
合計テスト数 1 誤答テスト数 1 合計コスト $0.145 応答時間（平均） 1.71s

汎用知能ランキング

モデルを絞り込む

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル

汎用知能 ランキング

モデルを絞り込む

汎用知能 スコア 上位モデル

汎用知能 スコア vs 合計コスト

応答時間（平均） 上位モデル

汎用知能ランキング

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル