汎用知能モデルランキング | AI BENCHY

AI BENCHY カテゴリ

汎用知能でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 正解テスト ↑.

表示モデル数

15

平均汎用知能スコア

5.9

最良モデル

GPT-5.3-Codex 4.6

失敗理由

失敗理由指示に従っていないで74 失敗理由不正解で32 失敗理由 API エラーで12 失敗理由タイムアウトで4

順位	モデル	企業	汎用知能スコア	スコア	正解テスト	応答時間（平均）
#96	Ring-2.6-1T none	Inclusionai	4.3	6.2	0/1	15.6s
#97	Gemini 2.5 Flash none	Google	5.0	6.2	0/1	615ms
#99	gpt-oss-120b medium	OpenAI	4.3	6.1	0/1	7.90s
#100	Grok Build 0.1 none	X AI	4.3	6.0	0/1	12.5s
#101	Mimo V2 Omni none	Xiaomi	4.1	6.0	0/1	2.33s
#102	Gemma 4 26B A4B none	Google	4.0	6.0	0/1	3.54s
#103	DeepSeek V4 Pro high	DeepSeek	6.1	6.0	0/1	25.1s
#104	Nemotron 3 Ultra 550b A55b none	NVIDIA	5.0	6.0	0/1	13.5s
#105	Nemotron 3 Super medium	NVIDIA	4.1	5.8	0/1	6.91s
#106	Grok 4.20 Beta none	X AI	5.0	5.8	0/1	541ms
#107	Laguna Xs.2 medium	Poolside	3.0	5.8	0/1	0ms
#109	GLM 5V Turbo none	Z.ai	4.6	5.8	0/1	2.22s
#111	Owl Alpha medium	Openrouter	4.3	5.7	0/1	58.6s
#112	GLM 5.1 none	Z.ai	5.0	5.7	0/1	790ms
#113	DeepSeek V4 Pro none	DeepSeek	4.3	5.7	0/1	3.75s

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル