AI BENCHY カテゴリ
ドメイン特化 ランキング
ドメイン特化 でどのAIモデルが最も強いか、どのモデルが安定しているか、差が大きいのはどこかを確認できます。 並び替え: 正解テスト ↓.
| 順位 | モデル | 企業 | ドメイン特化 スコア | スコア | 正解テスト | 応答時間(平均) |
|---|---|---|---|---|---|---|
| #55 | GLM 5.1 medium | Z.ai | 5.3 | 7.3 | 1/3 | 29.8s |
| #56 | MiMo-V2.5 medium | Xiaomi | 5.3 | 7.3 | 1/3 | 34.5s |
| #57 | Step 3.7 Flash low | Stepfun | 5.3 | 7.3 | 1/3 | 43.3s |
| #58 | Gemini 3.1 Flash Lite Preview none | 5.3 | 7.2 | 1/3 | 942ms | |
| #59 | GLM 5V Turbo medium | Z.ai | 5.3 | 7.2 | 1/3 | 38.1s |
| #60 | Kimi K2.6 medium | Moonshot AI | 5.3 | 7.2 | 1/3 | 202.4s |
| #61 | Gemini 3.1 Flash Lite low | 5.3 | 7.2 | 1/3 | 1.52s | |
| #62 | Step 3.5 Flash medium | Stepfun | 5.3 | 7.2 | 1/3 | 170.5s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 5.9 | 7.2 | 1/3 | 96.0s |
| #65 | Grok 4.20 medium | X AI | 5.3 | 7.1 | 1/3 | 27.0s |
| #67 | MiniMax M3 medium | Minimax | 5.5 | 7.1 | 1/3 | 233.1s |
| #68 | Claude Opus 4.8 none | Anthropic | 5.3 | 7.0 | 1/3 | 1.66s |
| #70 | GPT-5.4 Nano medium | OpenAI | 5.9 | 7.0 | 1/3 | 38.2s |
| #82 | Hy3 preview high | Tencent | 5.3 | 6.6 | 1/3 | 109.0s |
| #86 | Grok 4.1 Fast medium | X AI | 5.8 | 6.5 | 1/3 | 121.8s |