AI BENCHY カテゴリ
汎用知能 ランキング
汎用知能 でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。 並び替え: 応答時間(平均) ↓.
| 順位 | モデル | 企業 | 汎用知能 スコア | スコア | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|
| #71 | Step 3.7 Flash high | Stepfun | 5.5 | 7.0 | 0/1 | 4.17s |
| #9 | GPT-5.5 medium | OpenAI | 10.0 | 8.8 | 1/1 | 4.16s |
| #70 | GPT-5.4 Nano medium | OpenAI | 4.5 | 7.0 | 0/1 | 4.15s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 5.5 | 7.5 | 0/1 | 4.02s |
| #135 | Kimi K2.5 none | Moonshot AI | 10.0 | 5.2 | 1/1 | 4.00s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 4.3 | 5.7 | 0/1 | 3.75s |
| #45 | GPT-5.4 Mini medium | OpenAI | 4.5 | 7.5 | 0/1 | 3.72s |
| #16 | Gemini 3 Flash Preview low | 10.0 | 8.4 | 1/1 | 3.68s | |
| #2 | Gemini 3.5 Flash high | 10.0 | 9.6 | 1/1 | 3.63s | |
| #80 | Mimo V2 Omni medium | Xiaomi | 5.4 | 6.7 | 0/1 | 3.61s |
| #102 | Gemma 4 26B A4B none | 4.0 | 6.0 | 0/1 | 3.54s | |
| #153 | Qwen3.6 35B A3B none | Qwen | 4.4 | 4.6 | 0/1 | 3.51s |
| #68 | Claude Opus 4.8 none | Anthropic | 10.0 | 7.0 | 1/1 | 3.48s |
| #8 | Claude Opus 4.7 none | Anthropic | 10.0 | 8.9 | 1/1 | 3.47s |
| #20 | Gemini 3.5 Flash none | 10.0 | 8.1 | 1/1 | 3.46s |