汎用知能モデルランキング | AI BENCHY

AI BENCHY カテゴリ

汎用知能でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。並び替え: 正解テスト ↑.

表示モデル数

15

平均汎用知能スコア

5.9

最良モデル

GPT-5.3-Codex 4.6

失敗理由

失敗理由指示に従っていないで74 失敗理由不正解で32 失敗理由 API エラーで12 失敗理由タイムアウトで4

順位	モデル	企業	汎用知能スコア	スコア	正解テスト	応答時間（平均）
#15	GPT-5.3-Codex medium	OpenAI	4.6	8.4	0/1	4.87s
#17	GLM 5 medium	Z.ai	6.1	8.3	0/1	14.7s
#19	Seed-2.0-Lite medium	Bytedance Seed	6.7	8.2	0/1	18.2s
#21	GPT-5.4 medium	OpenAI	4.7	8.0	0/1	4.92s
#22	Step 3.7 Flash medium	Stepfun	4.0	8.0	0/1	6.85s
#23	GLM 5 Turbo medium	Z.ai	6.1	8.0	0/1	10.1s
#24	GPT-5.2 Chat none	OpenAI	4.4	7.9	0/1	3.20s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	4.7	7.9	0/1	79.9s
#26	Qwen3.6 Plus medium	Qwen	5.1	7.9	0/1	27.1s
#28	Gemini 2.5 Flash medium	Google	4.8	7.8	0/1	4.86s
#29	Qwen3.5-122B-A10B medium	Qwen	3.4	7.8	0/1	34.1s
#30	Qwen3.5-27B medium	Qwen	6.1	7.8	0/1	101.4s
#31	DeepSeek V4 Flash high	DeepSeek	6.1	7.7	0/1	25.2s
#36	Qwen3.5 Plus 2026-04-20 medium	Qwen	4.9	7.6	0/1	25.3s
#38	Grok 4.3 medium	X AI	5.4	7.6	0/1	24.7s

1 2 11

→

汎用知能スコア上位モデル

汎用知能スコア vs 合計コスト

応答時間（平均）上位モデル