汎用知能モデルランキング | AI BENCHY

AI BENCHY カテゴリ

汎用知能でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 応答時間（平均） ↑.

表示モデル数

15

平均汎用知能スコア

5.9

最良モデル

Hy3 preview 3.0

失敗理由

失敗理由指示に従っていないで74 失敗理由不正解で32 失敗理由 API エラーで12 失敗理由タイムアウトで4

順位	モデル	企業	汎用知能スコア	スコア	正解テスト	応答時間（平均）
#115	Qwen3.5-27B none	Qwen	5.0	5.7	0/1	2.51s
#41	Nemotron 3 Ultra 550b A55b medium	NVIDIA	3.7	7.5	0/1	2.52s
#7	Gemini 3.5 Flash medium	Google	10.0	9.0	1/1	2.52s
#77	Claude Sonnet 4.6 none	Anthropic	6.1	6.8	0/1	2.56s
#123	MiMo-V2.5-Pro none	Xiaomi	4.0	5.5	0/1	2.58s
#44	Gemini 3.1 Flash Lite medium	Google	10.0	7.5	1/1	2.60s
#116	Hunter Alpha none	OpenRouter	6.1	5.7	0/1	2.71s
#11	Claude Opus 4.7 medium	Anthropic	10.0	8.7	1/1	2.87s
#40	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.5	1/1	3.16s
#24	GPT-5.2 Chat none	OpenAI	4.4	7.9	0/1	3.20s
#98	GLM 5 none	Z.ai	10.0	6.1	1/1	3.27s
#91	GPT-5.5 none	OpenAI	10.0	6.4	1/1	3.41s
#110	Seed-2.0-Lite none	Bytedance Seed	10.0	5.8	1/1	3.45s
#20	Gemini 3.5 Flash none	Google	10.0	8.1	1/1	3.46s
#8	Claude Opus 4.7 none	Anthropic	10.0	8.9	1/1	3.47s

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル