汎用知能モデルランキング | AI BENCHY

AI BENCHY カテゴリ

汎用知能でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 正解テスト ↑.

表示モデル数

15

平均汎用知能スコア

5.9

最良モデル

GPT-5.3-Codex 4.6

失敗理由

失敗理由指示に従っていないで74 失敗理由不正解で32 失敗理由 API エラーで12 失敗理由タイムアウトで4

順位	モデル	企業	汎用知能スコア	スコア	正解テスト	応答時間（平均）
#130	MiniMax M2.7 medium	Minimax	3.9	5.3	0/1	38.7s
#131	Qwen3.5-122B-A10B none	Qwen	5.0	5.3	0/1	1.12s
#132	Mistral Small 4 medium	Mistral	4.8	5.3	0/1	2.05s
#133	DeepSeek V3.2 none	DeepSeek	4.7	5.2	0/1	9.32s
#134	GLM 5 Turbo none	Z.ai	4.2	5.2	0/1	2.18s
#136	Elephant Alpha medium	Openrouter	4.3	5.1	0/1	920ms
#137	Elephant Alpha none	Openrouter	4.0	5.1	0/1	854ms
#138	Ling-2.6-flash none	Inclusionai	4.0	5.0	0/1	1.45s
#139	DeepSeek V4 Flash none	DeepSeek	4.2	5.0	0/1	23.7s
#141	Nemotron 3 Super none	NVIDIA	4.6	4.9	0/1	950ms
#142	Mistral Small 4 none	Mistral	4.0	4.9	0/1	729ms
#143	MiMo-V2.5 none	Xiaomi	4.4	4.9	0/1	6.86s
#144	GPT-5.4 Mini none	OpenAI	4.8	4.9	0/1	1.82s
#145	Laguna M.1 none	Poolside	3.0	4.8	0/1	0ms
#146	Laguna Xs.2 none	Poolside	3.0	4.8	0/1	0ms

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル